Titanic - （XGBoost，RF随机森林，Fastai-tabular_learner）总结

最新推荐文章于 2023-01-31 08:00:00 发布

print（’指引明路的苍蓝星‘）

最新推荐文章于 2023-01-31 08:00:00 发布

阅读量330

点赞数

分类专栏： FastAi X Kaggle

本文链接：https://blog.csdn.net/demonhunter8023/article/details/118855384

版权

本文总结了在Titanic数据集上使用XGBoost、随机森林（RF）和Fastai的tabular_learner进行数据处理和算法对比的经验。数据处理包括Nan值填充、数据增强、连续数据转换和独热编码。结果显示，RF在小数据集上表现出更好的性能，而XGBoost在小规模数据集易过拟合，Fastai的库提供了自动学习率调整但可能在小数据量下未能充分发挥优势。

摘要由CSDN通过智能技术生成

数据处理

从高分code学到很多表格数据处理的方法，主要是以下几种：

fillna Nan值得填充确实会对准确率有小幅度的提升
数据增强使用原始数据为基础生成额外的维度
连续数据转换将连续数据分段转换成分类数据
one-hot独热编码通过pandas.get_dummies()可以轻松实现分类数据的独热编码

算法

表格数据集在小数据量的情况下，决策树家族更有竞争力。采取了一些算法的对比使用，放在Titanic-M.ipynb中，代码地址https://github.com/AshenWithoutFire/Kaggle-FastAI.git 。

性能比较
算法	KaggleScore	优缺点
XGBClassifier（Sklearn版本）	0.76555	调参中等，训练集准确率95%，训练无显示，速度快

最低0.47元/天解锁文章

print（’指引明路的苍蓝星‘）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Titanic - （XGBoost，RF随机森林，Fastai-tabular_learner）总结

数据处理从高分code学到很多表格数据处理的方法，主要是以下几种：fillnaNan值得填充确实会对准确率有小幅度的提升数据增强使用原始数据为基础生成额外的维度连续数据转换将连续数据分段转换成分类数据 one-hot独热编码通过pandas.get_dummies()可以轻松实现分类数据的独热编码算法表格数据集在小数据量的情况下，决策树家族更有竞争力。采取了一些算法的对比使用，放在Titanic-M.ipynb中，代码地址https://github.com/AshenWit...
复制链接

扫一扫

专栏目录