数据分析——泰坦尼克号数据集(一)
泰坦尼克号乘客数据:https://www.kaggle.com/c/titanic/overview
Datawhale开源课程:https://github.com/datawhalechina/hands-on-data-analysis
一、数据载入以及初步观察
1.1. 导入库
import numpy as np
import pandas as pd
1.2. pd.read_csv和pd.read_table读取
# pd.read_csv()
data = pd.read_csv('train.csv')
data0 = pd.read_csv('E:/MyPython/train.csv')
# pd.read_table()读取
data1 = pd.read_table('train.cav',sep = ',') # read_table默认分隔符是‘\t’
1.3. chunk分块读取
chunker = pd.read_csv('train.csv', chunksize=1000)
#读取方式一
chunker.get_chunk()
#读取方式二
for chunk in chunker:
print(chunk)
1.4. 修改数据表头
# 将表头改成中文,索引改为乘客ID
data