载入数据
1.首先导入numpy和pandas
import numpy as np
import pandas as pd
注:应用 pip install numpy 语句可能速度较慢,且因版本等问题又是会安装失败,可以在网上查询豆瓣代理网址下载
2.载入数据
输入:
df = pd.read_csv('train.csv')
df.head()
输出:
3.每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('train.csv', chunksize=1000)
4.将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据]
输入:
df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()
输出:
5.查看数据的基本信息
df.info()
6.保存数据
df.to_csv('train_chinese.csv')
1.2数据载入及初步观察
查看DataFrame数据的每列的项
df.columns