泰坦尼克号数据集_最常见的机器学习案例:泰坦尼克号生存预测

5c53c550cf896ba6c8a00229aacc96e8.png

虽然到处都是泰坦尼克号生存预测的案例,但是还是要再来一遍。哈哈哈。作为入门还是可以的。此篇文章为新手小白入门,大佬请指点。文章较长,下面进入正题。

目录

  1. 提出问题(Business Understanding )
  2. 理解数据(Data Understanding)
  • 采集数据
  • 导入数据
  • 查看数据集信息

3.数据清洗(Data Preparation )

    • 数据预处理
    • 特征工程(Feature Engineering)

4.构建模型(Modeling)

5.模型评估(Evaluation)

6.方案实施 (Deployment)

    • 提交结果到Kaggle
    • 报告撰写

1.提出问题

什么人在泰坦尼克事件中存活率较高?

2.理解数据

2.1数据采集

从Kaggle泰坦尼克号项目页面下载数据:

Titanic: Machine Learning from Disaster​www.kaggle.com

2.2导入数据

70d8466a3c1f06f4fc6219a4da336919.png
append方法按列添加

2.3查看数据集信息

d0b904e2a62c1a9f37b106246f1d424a.png

9e57c388ddca8d782c1227c053ccd239.png

3.数据清洗

3.1 数据预处理

缺失值处理

在前面,理解数据阶段,我们发现数据总共有1309行。 其中数据类型列:年龄(Age)、船票价格(Fare)里面有缺失数据。 字符串列:登船港口(Embarked)、船舱号(Cabin)里面有缺失数据。

这为我们下一步数据清洗指明了方向,只有知道哪些数据缺失数据,我们才能有针对性的处理。

很多机器学习算法为了训练模型,要求所传入的特征中不能有空值。

  1. 如果是数值类型,用平均值取代
  2. 如果是分类数据,用最常见的类别取代
  3. 使用模型预测缺失值,例如:K-NN

数值型数据缺失处理(采取了简单的平均值填充)

f0e2c8a8edfda1e8298ff9397603fd46.png

字符串型数值处理

3be8849170a17b06e576bd5d094041ed.png

3.2 特征工程

查看数据类型,分为3种数据类型。并对类别数据处理:用数值代替类别,并进行One-hot编码

e51b535155e58d9dfdaa28240b2a94e9.png

3.2.1 分类数据:

1.有直接类别的

  • 乘客性别(Sex): 男性male,女性female
  • 登船港口(Embarked):出发地点S=英国南安普顿Southampton,途径地点1:C=法国 瑟堡市Cherbourg,出发地点2:Q=爱尔兰 昆士敦Queenstown
  • 客舱等级(Pclass):1=1等舱,2=2等舱,3=3等舱

性别

5357b90e1ea187dc752c208fa67d4605.png

登船港口(Embarked)

e4ddd6fd543731405bcf2e672286d78d.png

客舱等级(Pclass)

9f3f6b62ef6cbe6af409e78e63f0adf1.png

2.无直接类别的字符串类型

可能从这里面提取出特征来,也归到分类数据中,这里数据有:

  • 乘客姓名(Name)
  • 客舱号(Cabin)
  • 船票编号(Ticket)

乘客姓名

f3b4fb0ce519a2cb9edcd25a833681bf.png

从客舱号中提取客舱类别

b5ab57847ba6ce193c58752c0dca43ac.png

建立家庭人数和家庭类别

3760384fdd8bbd199ced61043d1a6d30.png
one-hot的基本思想:将离散型特征的每一种取值都看成一种状态,若你的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的状态,one-hot编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。

c39a7f90c874025e39e7dd57b38d0eaa.png

3.2.2特征选择

本次是初学者入门,故采用相关系数法进行特征的选择,若想具体了解特征工程,请看下面链接。

如何做特征工程?

使用sklearn做单机特征工程 - jasonfreak - 博客园

泰坦尼克号如何进行特征选择?

相关系数法:计算各个特征的相关系数

335cb5e164b5b7fbdc8d5ff0e07b3426.png

4.构建模型

cb35fc43e6748262787e0fd57f2b993b.png

f24916580573c3182de66c1381960a99.png

选择算法模型并训练模型

这里的算法模型有很多,但本次选择逻辑回归模型

8e3426c698e85ec2dc10f9d92f63e0ab.png

5 评估模型

e4962a3005ce0a08e0c318bb7fb4542f.png

6.方案实施

6.1 得到预测结果上传到Kaggle

caeb5bed18cc3d1a1f76eec7419b247c.png

大佬请忽略渣渣的预测结果。。。。。

2fcc7917c8dab9cbc043c5387f0a0269.png

a17745d334fc7c519219bfe0ad79c476.png

6.2 报告撰写

下回分解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值