数据分析第二课
- 逐块读取:每1000行为一个模块读取数据
chunker =pd.read_csv('train.csv',chunksize=1000)
思考:逐块读取主要应对数据量特别大的,一次性全部读取,服务器是吃不消,所以就有必要使用分块读取;
- 将表头改为中文
df = pd.read_csv('train.csv', names=['乘客ID', '是否获救','舱位等级','姓名', '性别', '年龄', '兄弟姐妹个数', '父母子女个数', '船票号码', '票价', '客舱号', '登船港口'], index_col='乘客ID', header=0)
df.head()
index_col 设置作为序列的列
hearer 设置作为表头的行
- 初步观察:查看数据基本的统计特征
df.info
将数据全部罗列出来,而没有格式
df.info()
将数据的基本信息输出,是否有空值;
- 着重查看数据中是否有空值;
df.isnull()
输出全部数据,为空的地方标记为true;
也可以只输出部分行;
df.isnull().head()
- 保存数据
df.to_csv('train_chinese.csv')
小结
非常非常基础的小部分学完了~