动手学数据分析

最新推荐文章于 2022-09-12 14:38:00 发布

Wanbolin

最新推荐文章于 2022-09-12 14:38:00 发布

阅读量243

点赞数

文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wanbolin/article/details/108111710

版权

数据分析入门
【思考】知道数据加载的方法后，试试pd.read_csv()和pd.read_table()的不同，如果想让他们效果一样，需要怎么做？了解一下’.tsv’和’.csv’的不同，如何加载这两个数据集？

【答】TSV与CSV的区别：
从名称上即可知道。
TSV是用制表符（Tab,’\t’）作为字段值的分隔符；IANA规定的标准TSV格式，字段值之中是不允许出现制表符的。
CSV是用半角逗号（’,’）作为字段值的分隔符；

【思考】什么是逐块读取？为什么要逐块读取呢？
【答】是指通过指定一个chunksize分块大小来逐步读取文件，因为pandas读取文件时候常常通过大文件，这样可以减小对电脑内存的压力。

值得注意的是这里返回的df2是一个可迭代的对象TextFileReader，可以通过for chunk in df: 迭代

【思考】对于一个数据，还可以从哪些方面来观察？找找答案，这个将对下面的数据分析有很大的帮助
【答】查看每列的平均数，zip大数，平均数等等

【思考】还有其他的删除多余的列的方式吗？
【总结】通过pandas删除列有以下几种情况
1.del df[‘columns’] #改变原始数据
2.df.drop(‘columns’,axis=1)#删除不改表原始数据，可以通过重新赋值的方式赋值该数据；df.drop(‘columns’,axis=1,inplace=True) #改变原始数据

【思考】这个reset_index()函数的作用是什么？如果不用这个函数，下面的任务会出现什么情况？
【答】 reset_index()是重置索引，因为前面对数据进行了筛选，所以索引不再是连续的了。而drop=True是表示不想保留原来的index，默认 False。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。