本文为数据挖掘竞赛技巧篇之常用trick介绍。
1.特征选择策略
特征选择(按重要程度排序)对数据分析非常重要。好的特征能够改善模型、提升模型的性能,特征选择主要有两个功能:
-
减少特征数量、降维,使模型泛化能力更强,减少过拟合;
-
增强对特征和特征值之间的理解。
2.模型融合
一般来说模型融合可以有效的、直接的提升自身模型精度,集成之后的模型比其中任何一个单独的模型都有更高的预测能力。
一般被选手常用的模型融合方式有n折交叉验证法、多模型融合投票法。
3.奥卡姆剃刀原理
奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单(特征尽量少,把没有必要的特征干掉、因为碍事还没价值或者价值边际递减的非常厉害)才是最好的,也就是应该选择的模型。
—End—