- 项目背景
电影《泰坦尼克号》改编自一个真实故事。1912年4月15日,这艘号称“永不沉没”的泰坦尼克号在首航期间,撞上冰山后沉没,船上的2224名乘客和机组人员,其中只有772人存活下来,生还率只有32%。 这一耸人听闻的悲剧震撼了国际社会!
2.提出问题
泰坦尼克号生存率预测 :具有什么特征的人在泰坦尼克号中更容易存活?
3. 采集数据:
数据来源于kaggle网站Titanic项目: kaggle.com/c/titanic
4.特征工程
Dima:02 手把手教你做特征工程zhuanlan.zhihu.com特征工程(feature engineering)是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。坊间有一个大家公认的看法,“数据和特征决定了数据挖掘项目的上限,而算法只是尽可能地逼近这个上限”。特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,特征降维等。
经典特征工程包括探索性数据分析、特征理解、特征增强、特征构建和特征选择5个步骤,为进一步解释数据并进行预测性分析做准备。
4.1 探索性数据分析
探索性数据分析(EDA,exploratory data analysis)对数据集进行基本的描述性统计(大小、形状),并进行可视化操作,以便更好地理解数据的性质。
4.1.1 导入数据
#1导入包&数据集
#2 查看数据集差异
train.csv比test.csv多了一列Survived,即是否生存,这正是我们要解决的问题:本文即是通过对train.csv的机器学习,来预测test.csv的Survived水平。test.csv的特征与训练数据train.csv的特征一致时才能直接应用训练模型进行预测,所以要将二者合并起来一起清洗,这样保证了后面test.csv的特征数据可直接带入进行预测。
#合并训练集和测试集&查看合并结果
4.1.2 描述性统计
函数.head(),默认查看 前五行数据;