关于kaggle的新手练习《泰坦尼克号数据集》

最新推荐文章于 2023-08-30 22:12:42 发布

退役熬夜选手丶

最新推荐文章于 2023-08-30 22:12:42 发布

阅读量1k

点赞数 1

分类专栏：学习文章标签：机器学习 python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43078441/article/details/103584859

版权

学习专栏收录该内容

7 篇文章

订阅专栏

关于kaggle的新手练习《泰坦尼克号数据集》

这两天尝试了一下kaggle上的《泰坦尼克号数据集》，复习了numpy的一些基本操作指令和简单的机器学习模型（主要是使用sklearn框架）以及管道流水线的处理。写此博客用于记录。

泰坦尼克号数据集较为简单，数据量小，训练集的数据质量也比较高。通过该项目，我加深了对DataFrame切片的理解，以及一些简单的numpy指令。这个数据集可以很好地帮助新手复习学过的numpy指令以及对特征工程的理解。以及一些简单的图表绘制。对该项目的主要处理是在特征工程上，以及将特征转化成合适的数据类型（比如分类我们还可以采用独热编码）。
我对数据的处理尽量采用了管道文件Pipeline流水线，这对数据规模较大和实际生产中很有效果，所以应该熟练掌握。
在这里我贴出我完成该项目而制作的流程图以及代码，在对该数据集学习的过程中，我参考了kaggle上的：Sina用户，他对特征的一系列处理，十分简单易懂，大家也可以去看看他的代码。本人作为一个机器学习的新手，希望各位能对我代码中不正确的写法和理解多多批评，如此才能进步。

流程图及代码

泰坦尼克号流程图

代码文件

链接:Titanic.ipynb

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。