Titanic: Machine Learning from Disaster-kaggle入门赛-学习笔记

Titanic: Machine Learning from Disaster

  1. 对实验用的数据的认识,数据中的特殊点/离群点的分析和处理,特征工程(feature engineering)很重要。
  2. 注意模型融合(model ensemble)。

机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾

  1. 训练数据中通常遇到缺值的情况,会有几种常见的处理方式:

        1.如果缺值的样本占总数比例极高,可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了;

        2.如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中;

        3.如果缺值的样本适中,而该属性为连续值特征属性,有时候会考虑给定一个step(比如这里的age,可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中;

        4.有些情况下,缺失的值个数并不是特别多,那也可以试着根据已有的值,拟合一下数据,补充上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值