由Datawhale组织的数据分析学习分为三个章节:
1.数据加载,Pandas基础与探索性数据分析;
2.数据清洗及特征处理,数据重构,数据可视化;
3.模型搭建,模型评估。
本篇文章为数据分析第一章的学习笔记,数据来源于kaggle竞赛的Titanic数据,记录笔记以备复习参考。
一、数据加载
1.1. 载入数据
1.1.1 导入numpy和pandas
import numpy as np
import pandas as pd
import os
1.1.2 载入数据
#df=pd.read_csv('train.csv') #相对路径
#df.head(3)
os.getcwd() #由于相对路径运行失败,故查找其当前工作目录,发现只有把train.csv用在desktop下才能正常运行,故使用下面的绝对路径
df=pd.read_csv('/Users/Administrator/LC python/datawhale/data analysis/unit 1/Titanic-dataset/train.csv')
df.head(3) #只输出三行
1.1.3 逐块读取数据模块
chunker=pd.read_csv('/Users/Administrator/LC python/datawhale/data analysis/unit 1/Titanic-dataset/train.csv',chunksize=1000)
分块读取可以减少内存、IO的消耗,提高效率
1.1.4 修改表头语言类型,设置索引列
df=pd.read_csv('/Users/Administrator/LC python/datawhale/data analysis/unit 1/Titanic-dataset/train.csv',names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)#header=0是从乘客ID第0个的下一个开始
df.head() #第一行看作列名
将表头改为中文,有利于表格以我们更熟悉的方式显示
1.2.初步观察
初步观察表格数据的基本信息,有利于后续的探索性研究。
1.2.1 查看数据基本信息
df.info()
1.2.2 查看前后指定行数的数据
df.head(10)
df.tail(15)
1.2.3 判断数据是否有空值
df.isnull().head()
客舱列存在空值
1.3.保存数据
df.to_csv('train_chinese.csv')
二、Pandas基础
2.1.找到数据集并花式查看
2.1.1 DataFrame与Series数据类型
先举个小例子:
import numpy as np
import pandas as pd
sdata={
'Ohio':35000,"Texas":71000,'Oregon':16000,'Utah':5000}
example_1=pd.Series(sdata) #时间序列数据
example_1
data={
'state':