动手学数据分析

数据分析入门
【思考】知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?

【答】TSV与CSV的区别:
从名称上即可知道。
TSV是用制表符(Tab,’\t’)作为字段值的分隔符;IANA规定的标准TSV格式,字段值之中是不允许出现制表符的。
CSV是用半角逗号(’,’)作为字段值的分隔符;

【思考】什么是逐块读取?为什么要逐块读取呢?
【答】是指通过指定一个chunksize分块大小来逐步读取文件,因为pandas读取文件时候常常通过大文件,这样可以减小对电脑内存的压力。

值得注意的是这里返回的df2是一个可迭代的对象TextFileReader,可以通过for chunk in df: 迭代

【思考】对于一个数据,还可以从哪些方面来观察?找找答案,这个将对下面的数据分析有很大的帮助
【答】查看每列的平均数,zip大数,平均数等等

【思考】还有其他的删除多余的列的方式吗?
【总结】通过pandas删除列有以下几种情况
1.del df[‘columns’] #改变原始数据
2.df.drop(‘columns’,axis=1)#删除不改表原始数据,可以通过重新赋值的方式赋值该数据;df.drop(‘columns’,axis=1,inplace=True) #改变原始数据

【思考】这个reset_index()函数的作用是什么?如果不用这个函数,下面的任务会出现什么情况?
【答】 reset_index()是重置索引,因为前面对数据进行了筛选,所以索引不再是连续的了。而drop=True是表示不想保留原来的index,默认 False。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值