参考:https://www.cnblogs.com/zhizhan/p/5238908.html
titanic比赛
一些做比赛的要点:
- 『对数据的认识』
- 『数据中的特殊点/离群点的分析和处理』
- 『特征工程(feature engineering) 在很多Kaggle的场景下,甚至比model本身还要重要』
- 『要做模型融合(model ensemble)』
这部分根据上面的几个点,做一点笔记
数据认识 对数据集的了解及可视化
dataframe.info
然后通过可视化,分析各个特征对于最后的样本的效果
如头等舱获救比例更大
目前已经对各个阶段的图像有了一些了解,可以进行下一阶段了
预处理与特征工程
预处理
通常遇到缺值的情况,我们会有几种常见的处理方式
- 如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了
- 如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中
- 如果缺值的样本适中,而该属性为连续值特征属性,有时候我们会考虑给定一个step(比如这里的age,我们可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中。
- 有些情况下,缺失的值个数并不是特别多,那我们也可以试着根据已有的值,拟合一下数据,补充上。
先把缺失值之类的补上
把一些特征one-hot化
特征工程
除了原本属性的特征外,还应有从原始属性中派生的新属性
对所有属性进行交叉相关分析...这是探索性分析的必要步骤之一
研究业务逻辑提取特征
模型融合
天池新人实战赛[离线]