Pandas入门第二天
导语
今天来Pandas入门第二期啦。
继上一次完成了数据导入,今天开始数据探索部分,了解我们导入的数据基本情况。
01
数据探索
Advanced issue found Advanced issue found数据探索的必要性:
并不是所有的数据集都是完整且规范的。
原始数据集可能存在缺失值、重复值、异常值等。
上一集我们已经导入数据并借助.head()语句轻松查看数据集的前N行(默认前5行,查看前10行只需返回.head(10)即可)。
相对应的.tail()语句可以查看后N行,具体用法与head一致。
由于我设置了索引列(读取csv文件时利用index_col设置),所以可以了解到我们的数据集共有50行数据。
但是在Pandas中,永远有更简洁的方法。
.info()
闪亮登场!
从info输出结果我们可以获得哪些信息点呢?
行数 1-50共50行
列数 total 13 columns
每一列的数据格式 object-对象 int64-数值
df的存储信息 - dataframe格式,使用5.5k内存
计算科学最常用的一个词是“数据结构”。
数据结构简单而言就是计算机存储、组织数据的方式。
DataFrame是python特有的,直译为“数据框”。
因为这是一个spotify音乐数据集,根据info输出的列名称可以推知数据集主要有专辑名称、艺术家名称、歌曲流派、BPM等等维度。
当然如果你只想查看列名:
P.S. 这个数据的列名不是特别规范,我们可以用rename来进行重命名:
以上重命名语句,不要忘记赋值给df,否则仅展示效果生效,列名仍保持不变。
正确的改列名语句是:
df=df.rename(columns={})
或者我们只想了解下df的行列数:
有的小伙伴要说,搞了半天我到现在只对数据结构有个大概的认识,连数据有什么内容都还不知道,别急,describe出场来一显身手了:
describe可以支持以上计数、均值、分位数、最值的输出,对了解数据的分布十分便捷。
了解过seaborn的同学可以试试以Beats.Per.Minute画一个箱线图。
从箱线图可以观察到BPM的数据分布与describe()给出的值范围一致。
02
复习
这一集主要了解了以下几个方法:
head()/tail()
info()
describe()
shape
size
columns
还记得每个方法的功能吗?
03
下期预告
下一集我们会继续对spotify数据进行探索。
会涉及到缺失值,重复值的检查和处理。
下期再见~
end.
我知道你
在看
哦