关于kaggle的新手练习《泰坦尼克号数据集》

关于kaggle的新手练习《泰坦尼克号数据集》

这两天尝试了一下kaggle上的《泰坦尼克号数据集》,复习了numpy的一些基本操作指令和简单的机器学习模型(主要是使用sklearn框架)以及管道流水线的处理。写此博客用于记录。

泰坦尼克号数据集较为简单,数据量小,训练集的数据质量也比较高。通过该项目,我加深了对DataFrame切片的理解,以及一些简单的numpy指令。这个数据集可以很好地帮助新手复习学过的numpy指令以及对特征工程的理解。以及一些简单的图表绘制。对该项目的主要处理是在特征工程上,以及将特征转化成合适的数据类型(比如分类我们还可以采用独热编码)。
我对数据的处理尽量采用了管道文件Pipeline流水线,这对数据规模较大和实际生产中很有效果,所以应该熟练掌握。
在这里我贴出我完成该项目而制作的流程图以及代码,在对该数据集学习的过程中,我参考了kaggle上的:Sina用户,他对特征的一系列处理,十分简单易懂,大家也可以去看看他的代码。本人作为一个机器学习的新手,希望各位能对我代码中不正确的写法和理解多多批评,如此才能进步。

流程图及代码

泰坦尼克号流程图

代码文件

链接:Titanic.ipynb

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值