这里写自定义目录标题
动手学数据分析
载入数据
相对路径
在ipynb文件的相对路径下载入数据,比如在同级目录下,直接输入文件名就可以导入。
绝对路径
数据文件在计算机中的路径。MacOS下的绝对路径技巧:右键文件的info,然后复制文件位置,最后加上文件名即可
如何在mac系统中获得绝对路径
逐块提取数据的功能
时数据的尺寸非常大,计算机的内存不一定能同时处理整个文件,所以要使用逐块提取数据:设置一个size,每次提取这个size的数据,完成遍历后,组成一个完成的数据文件
chunker的数据结构类似数组,打印出来后是根据size均分的数个数组组成的数据文件
指定提取数据
读取特定的行与列
提取前n行
提取n+1~n+1+m行
指定某行
修改DataFrame的列名
在载入时修改:
df = pd.read_csv(‘文件名’,names=[‘要改的表名’, … ], indexCol=‘主索引键列名’,header=0)
在载入后修改
查看df的基本信息
查看指定行数信息
前n行:df.head(n)
后n行:df.tail(n)
head是头,tail是尾巴
中间行,可以使用切片
iloc
索引:df[n:m]
此结构为左闭右开
查看空数据
判断空数据,返回true
判断整个表是否有空
判断哪些列有空
统计列的空值个数
统计所有空值的个数(也可以用.sum().sum()
打印有空值的rows