PyTorch深度学习实践概论笔记8练习-kaggle的Titanic数据集预测(二)总结[可选]

28 篇文章 17 订阅

由于文章PyTorch深度学习实践概论笔记8练习-kaggle的Titanic数据集预测(一)数据分析篇幅略长,将数据分析的一些结论总结在这篇文章,有助于做特征选择。

  1. 总体生存率情况(Survived):整个数据集存活率38.38%,死亡率61.62%。
  2. 不同性别的人员存活率分析(Sex、Survived):整个数据集中男性人数577,女性314人,男性占比64.75%,但女性的存活率74.2%远高于男性存活率18.8%(存活率与性别有关)。
  3. 不同登船港的人员存活率分析(Embarked、Survived):可以看到,C地登船的存活率最高、其次为Q地登船、S地登船人数最多但存活率仅有1/3(存活率与登船港有关)。
  4. 不同船舱号的人员存活率分析(Cabin、Survived):结合之前的分析,有船舱号信息的人员占(204+91)/1309=22.54%,缺失船舱号的群体占比77.5%,但是存活率仅仅29.99%。 船舱号B/D/E存活率较高,均超过70%(存活率与船舱号有关)。
  5. 不同票等级的人员存活率分析(Pclass、Survived):数据表明,票等级越高存活率就越高;等级1的人存活率62.96%;等级3的人数占比超50%,但存活率不到1/3(0.242363)(存活率与票等级有关)。
  6. 不同票等级的男女存活率分析(Pclass、Sex、Survived):结果表明,不同票等级下女性的存活率均高于男性,在票等级1和2中女性存活率均超过90%。
  7. 不同票价的人员存活率分析(Fare、Survived):上述箱线图表明,存活群体的票价均值要高于死亡群体,而且存活的群体中票价分布差异更大。
  8. 不同票价区间的人员存活率分析(Fare_bin、Survived):随着票价的升高,票价区间的存活率越来越高,[31,515)的存活率为58.2%(存活率与票价有关)。
  9. 不同票等级[细分]的人员存活率分析(Pclass_Fare_Category、Survived):数据说明,同一票等级的高价格区间的存活率高于低价格区间。
  10. 不同title[name中提取]的人员存活率分析(Title、Survived):Mr和Officer的人员存活率明显更低,Mrs title的群体存活率最高(存活率与title有关)。
  11. 不同name长度的人员存活率分析(Name_length、Survived):名字长度小于35的群体的存活率相对较低,名字长度越长,存活率整体越高。但是看了一下,后面名字长度长的人数基本是个位数的(存活率与名字长度有关)。
  12. 区分有无兄弟姐妹/配偶在船上的人员存活率分析(SibSp、Survived):明显看出,(左侧)有兄弟姐妹/配偶在船上的存活率更高,为46.6%(存活率与SibSp有关)。
  13. 区分有无父母/子女在船上的人员存活率分析(Parch、Survived):明显看出,(左侧)有父母/子女在船上的成活率更高,为48.8%(存活率与Parch有关)。
  14. 不同年龄的人员存活率分析(Age、Survived):箱形图显示是否存活群体的年龄差异并不大。通过上面分组小提琴图,我们发现在不同票等级中存活下来的人员年龄相对更小(左),不同性别人员的存活与否年龄差异并不大(右)。
  15. 不同年龄分层的人员存活率分析(Age_group、Survived):可以看到年幼群体的群体的存活率更高,超过一半,为56.4%。

说明:记录学习笔记,如果错误欢迎指正!写文章不易,转载请联系我。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值