1 第一章:数据载入及初步观察
1.1 载入数据
import numpy as np
import pandas as pd
df = pd.read_csv('train.csv')
#相对路径,直接调用文件目录
df = pd.read_csv('C:/Users/syl/hands-on-data-analysis/第一单元项目集合/train.csv')
#绝对路径,完整目录
chunker = pd.read_csv('train.csv',chunksize= 1000) #逐块读取,每1000行一个数据模块
for test in chunker :
print(type(test)) #查看数据块类型
print(len(test)) #查看数据块列数
df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
修改表头为中文,索引改为‘乘客ID’,header=0为不要原索引,从第一行开始
df.head(10) #查看前10列数据
df.head(15) #查看后15列数据
df.isnull().head() #判断数据是否为null
1.2 写入数据
df.to_csv('train_chinese.csv')
加入`encoding='GBK' 或者 ’encoding = ’uft-8‘可以防止乱码