数据集下载地址https://www.kaggle.com/c/titanic/overview
整体课程分为三部分:
- 第一部分:我们获得一个要分析的数据,我要学会如何加载数据,查看数据,然后学习Pandas的一些基础操作,最后开始尝试探索性的数据分析。
- 第二部分:当我们可以比较熟练的操作数据并认识这个数据之后,我们需要开始数据清洗以及重构,将原始数据变为一个可用好用的数据,为之后放入模型做准备
- 第三部分:我们根据任务需求不同,要考虑建立什么模型,我们接触流行的sklearn库,建立模型。然后一个模型的好坏,我们是需要评估的,之后我们会引入模型评估的一些改变和实现。
首先对于数据进行初步的载入与观察,这里就用到了pandas库,我用jupyter进行展示:
这里我使用绝对路径载入数据![](https://i-blog.csdnimg.cn/blog_migrate/ea05dd1ba9e5e5ba8b56a9db0a83c9e2.png)
每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('train.csv', chunksize=1000)
更改表头为中文
第二步:对泰坦尼克号数据(trian.csv)按票价和年龄两列进行综合排序(降序排列)
第三步:
查看DataFrame数据的每列的名称
查看‘客舱’这一列所有值: