数据分析入门
【思考】知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?
【答】TSV与CSV的区别:
从名称上即可知道。
TSV是用制表符(Tab,’\t’)作为字段值的分隔符;IANA规定的标准TSV格式,字段值之中是不允许出现制表符的。
CSV是用半角逗号(’,’)作为字段值的分隔符;
【思考】什么是逐块读取?为什么要逐块读取呢?
【答】是指通过指定一个chunksize分块大小来逐步读取文件,因为pandas读取文件时候常常通过大文件,这样可以减小对电脑内存的压力。
值得注意的是这里返回的df2是一个可迭代的对象TextFileReader,可以通过for chunk in df: 迭代
【思考】对于一个数据,还可以从哪些方面来观察?找找答案,这个将对下面的数据分析有很大的帮助
【答】查看每列的平均数,zip大数,平均数等等
【思考】还有其他的删除多余的列的方式吗?
【总结】通过pandas删除列有以下几种情况
1.del df[‘columns’] #改变原始数据
2.df.drop(‘columns’,axis=1)#删除不改表原始数据,可以通过重新赋值的方式赋值该数据;df.drop(‘columns’,axis=1,inplace=True) #改变原始数据
【思考】这个reset_index()函数的作用是什么?如果不用这个函数,下面的任务会出现什么情况?
【答】 reset_index()是重置索引,因为前面对数据进行了筛选,所以索引不再是连续的了。而drop=True是表示不想保留原来的index,默认 False。