python数据分析代码源码下载_【Python sklearn】kaggle Titanic生死预测--0.81准确率--python超详细数据分析--附源代码和报告的下载地址...

最新推荐文章于 2024-02-29 10:53:12 发布

weixin_39627665

最新推荐文章于 2024-02-29 10:53:12 发布

阅读量256

点赞数

文章标签： python数据分析代码源码下载

前言

泰坦尼克号的沉没是历史上最臭名昭著的海难之一。

1912年4月15日，在她的处女航中，被普遍认为“沉没”的RMS泰坦尼克号与冰山相撞后沉没。不幸的是，船上没有足够的救生艇供所有人使用，导致2224名乘客和机组人员中的1502人死亡。

尽管幸存有一些运气，但似乎有些人比其他人更有可能生存。

在这一挑战中，我们要求您建立一个预测模型来回答以下问题：“什么样的人更有可能生存？” 使用乘客数据(即姓名，年龄，性别，社会经济阶层等)

文末有源代码、实验报告以及该代码需要的数据(train.csv和test.csv)

作者：东北大学软件工程1704张志浩

1 导入包

2 加载并合并数据

3 查看数据

我们知道了总的数据一共有1309行，也知道了每个特征的数据类型，很多数据都出现了缺失，总结一下：

1、Age缺失 263个，不算多，处理数据

2、Survived缺失418个，不用处理，因为test.csv中的数据本来就是没有Survived的。

3、Cabin缺失1014个，缺失太多，丢弃这个特征

4、Fare缺失1个

5、Embarked缺失2个

4 处理数据

在数据中出现缺失或者错误的Value是很正常的事，一些预测模型可以很好的处理缺失数据，如神经网络(neural networks)，有些则需要单独处理他们。但是我们使用的随机森林(Random Forest)来做预测模型，随机森林(自身并不能对付缺失数据，所以我们需要对缺失值单独进行处理。

4.1 删除Cabin => 客舱、Ticket => 船票信息、PassengerId => 乘客ID

4.2 处理Age => 年龄的缺失值

4.2.1 平均值来填充

Age(年龄)有263个缺失项，就简单地用平均值来填充，并看看填充前后的直方图：

4.2.2 随机选取平均值加减标准差范围的数来填充

4.3 接着，我们需要从年龄中提取一个特征出来，即：孩子。尊老爱幼

4.4 处理Embarked => 登船港口的缺失值

4.5 填补Fare => 票价缺失值

Fare(票价)只有1个缺失项,直接用平均值填充：

可以看出票价集中在10左右，幸存的人的票价平均在48。

4.6 Pclass => 乘客等级(1/2/3等舱位)

可视化

得到Pclass与Survived的关系，可以看出Pclass为3的生存率很低，我们试试把它的Dummy Variables去掉：

4.7 老规矩，首先看看Sex与Survived的关系：

4.8 Name(姓名)，Parch(父母/孩子的数量)，SibSp(配偶的数量)：

4.9 对Embarked进行变量转换

4.10 再观察一下数据，看看还有那些特征可以用到，整理出三个新特征：称谓、家庭大小、姓。

4.10.1 处理姓

4.10.2 处理称谓

4.10.3 处理家庭大小

5 提取模型需要的数据

6 对数据进行标准化、降维等操作

我只使用了离差标准化，其他的没有离差标准化准确率高，注释掉的代码是我没有使用的方法

6.1 离差标准化

6.2 标准差标准化数据

6.3 对特征进行二值化处理

6.4 对定性特征进行独热编码处理

6.5 PCA降维

7 可视化研究不同特征的影响

从图中可以看出Q影响较小，删去

8 删去影响较小的特征–Q

9 网格搜索最优参数

我得到n_estimators=26,max_depth=6,最优

10 模型构建

我试了几乎所以的模型，但是只有随机森林的准确率最高，可能我处理得到的数和这个模型比较匹配

10.1 随机森林

10.2 GBDT

10.3 SVM模型

10.4 逻辑回归Logistic Regression

11 验证结果

12 实验报告和源代码下载地址

weixin_39627665

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。