Titanic: Machine Learning from Disaster
- 对实验用的数据的认识,数据中的特殊点/离群点的分析和处理,特征工程(feature engineering)很重要。
- 注意模型融合(model ensemble)。
- 训练数据中通常遇到缺值的情况,会有几种常见的处理方式:
1.如果缺值的样本占总数比例极高,可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了;
2.如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中;
3.如果缺值的样本适中,而该属性为连续值特征属性,有时候会考虑给定一个step(比如这里的age,可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中;
4.有些情况下,缺失的值个数并不是特别多,那也可以试着根据已有的值,拟合一下数据,补充上。