数据载入及初步观察
载入数据
csv: pd.read_csv(绝对路径or相对路径)
Excel: pd.read_excel()
txt: pd.read_txt()
逐块读取
df = pd.read_csv('train.csv', chunksize=100)
for chunk in df:
print(chunk)
或者
df = pd.read_csv('train.csv', iterator=True)
chunks = df.get_chunk(100)
print(chunks)
iterator的作用?
read_csv
和 read_table
有一个 chunksize
参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
该表头索引
df.rename(columns={'PassengerId':'乘客ID‘,’Sex‘:'性别'}, inplace=True)
查看数据基本信息
df.info()
判断是否为空
df.isnull()
保存数据
df.to_csv('train_1.csv)
pandas基础
以‘Age’为条件,将年龄在10岁以上和50岁一下的乘客信息显示出来,并将这个数据命名为midage
midage = df[(df['Age']>10)&(df['Age']<50)]
midage.eadd(3)
将midage数据中的第100行的‘Place’和‘Sex’显示出来
midage.loc[[100],['Place','Sex']]
使用loc方法将midage数据中的第100,105,108行的‘Place’,‘Name’,‘Sex’的数据显示出来
midage.loc[[100,105,108],['Place','Name','Sex']]
使用iloc()方法将midage的数据中第100,105,108h行的‘Place’,‘Name’,‘Sex’的数据显示出来
midage.loc[[100,105,108],[2,3,4]]