Titanic: Machine Learning from Disaster-kaggle入门赛-学习笔记

本文是关于Kaggle上的Titanic机器学习比赛的学习笔记,探讨了数据中的特殊点和离群值处理,强调了特征工程的重要性。介绍了处理缺失值的不同策略,如直接舍弃、新增类别、离散化或拟合数据。还提到了逻辑回归模型应用,并解释了类目特征的因子化过程。此外,讨论了交叉验证和学习曲线在评估模型性能中的作用,以及模型融合策略来改善预测结果。
摘要由CSDN通过智能技术生成

Titanic: Machine Learning from Disaster

  1. 对实验用的数据的认识,数据中的特殊点/离群点的分析和处理,特征工程(feature engineering)很重要。
  2. 注意模型融合(model ensemble)。

机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾

  1. 训练数据中通常遇到缺值的情况,会有几种常见的处理方式:

        1.如果缺值的样本占总数比例极高,可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了;

        2.如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中;

        3.如果缺值的样本适中,而该属性为连续值特征属性,有时候会考虑给定一个step(比如这里的age,可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中;

        4.有些情况下,缺失的值个数并不是特别多,那也可以试着根据已有的值,拟合一下数据,补充上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>