Titanic - (XGBoost,RF随机森林,Fastai-tabular_learner)总结

本文总结了在Titanic数据集上使用XGBoost、随机森林(RF)和Fastai的tabular_learner进行数据处理和算法对比的经验。数据处理包括Nan值填充、数据增强、连续数据转换和独热编码。结果显示,RF在小数据集上表现出更好的性能,而XGBoost在小规模数据集易过拟合,Fastai的库提供了自动学习率调整但可能在小数据量下未能充分发挥优势。
摘要由CSDN通过智能技术生成

数据处理

从高分code学到很多表格数据处理的方法,主要是以下几种:

  1. fillna Nan值得填充确实会对准确率有小幅度的提升
  2. 数据增强 使用原始数据为基础生成额外的维度
  3. 连续数据转换 将连续数据分段转换成分类数据
  4. one-hot独热编码 通过pandas.get_dummies()可以轻松实现分类数据的独热编码

算法

表格数据集在小数据量的情况下,决策树家族更有竞争力。采取了一些算法的对比使用,放在Titanic-M.ipynb中,代码地址https://github.com/AshenWithoutFire/Kaggle-FastAI.git 。

性能比较
算法 KaggleScore 优缺点
XGBClassifier(Sklearn版本) 0.76555 调参中等,训练集准确率95%,训练无显示,速度快
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值