pandas的数据清洗的数据集下载_Pandas数据探索

Pandas入门第二天

导语

今天来Pandas入门第二期啦。

继上一次完成了数据导入,今天开始数据探索部分,了解我们导入的数据基本情况。

01

数据探索

 Advanced issue found Advanced issue found

数据探索的必要性:

并不是所有的数据集都是完整且规范的。

原始数据集可能存在缺失值、重复值、异常值等。

上一集我们已经导入数据并借助.head()语句轻松查看数据集的前N行(默认前5行,查看前10行只需返回.head(10)即可)。

相对应的.tail()语句可以查看后N行,具体用法与head一致。

c6bb535587f1f119849c62e299a90053.png

由于我设置了索引列(读取csv文件时利用index_col设置),所以可以了解到我们的数据集共有50行数据。

但是在Pandas中,永远有更简洁的方法。

.info()

闪亮登场!

518ea53b86274383f911d4e7e52b2931.png

从info输出结果我们可以获得哪些信息点呢?

  • 行数 1-50共50行

  • 列数 total 13 columns

  • 每一列的数据格式 object-对象 int64-数值

  • df的存储信息 - dataframe格式,使用5.5k内存

计算科学最常用的一个词是“数据结构”。

数据结构简单而言就是计算机存储、组织数据的方式。

DataFrame是python特有的,直译为“数据框”。

因为这是一个spotify音乐数据集,根据info输出的列名称可以推知数据集主要有专辑名称、艺术家名称、歌曲流派、BPM等等维度。

当然如果你只想查看列名:

10fcc1bef5d3e061573da38a8d65d6c0.png

P.S. 这个数据的列名不是特别规范,我们可以用rename来进行重命名:

f6fa4065a06bc3dfa2a1ef7402e75613.png

以上重命名语句,不要忘记赋值给df,否则仅展示效果生效,列名仍保持不变。

正确的改列名语句是:

df=df.rename(columns={})

或者我们只想了解下df的行列数:

28c5fa8d72ff63d8901a79099ab665a7.png

有的小伙伴要说,搞了半天我到现在只对数据结构有个大概的认识,连数据有什么内容都还不知道,别急,describe出场来一显身手了:

f8bd4e2d1f69f295e74faf0b0287b227.png

describe可以支持以上计数、均值、分位数、最值的输出,对了解数据的分布十分便捷。

58331cbb2b1ed1502208679b38f8c8f1.png

了解过seaborn的同学可以试试以Beats.Per.Minute画一个箱线图。

abeefe803e62eb2d909f402f0c93a33e.png

从箱线图可以观察到BPM的数据分布与describe()给出的值范围一致。

02

复习

这一集主要了解了以下几个方法:

  • head()/tail()

  • info()

  • describe()

  • shape

  • size

  • columns

还记得每个方法的功能吗?

03

下期预告

下一集我们会继续对spotify数据进行探索。

会涉及到缺失值,重复值的检查和处理。

下期再见~

end.

我知道你

在看

03f7ac4c7236aa7a7d7ecb3031cb717d.gif
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值