【Machine Learning Done Wrong】http://t.cn/RvIHN3N
作者总结了机器学习七种易犯的错误:1.想当然用缺省Loss;2.非线性情况下用线性模型;3.忘记Outlier;4.样本少时用High Viriance模型;5.不做标准化就用L1/L2等正则;6.不考虑线性相关直接用线性模型;7.LR模型中用参数绝对值判断feature重要性。
参考:张栋_机器学习
1. 机器学习本质上是在解一个优化问题,优化目标定义错误(或者 loss function 定义错了),就全错了!
2. 尽量通过特征处理和变换,把非线性情况用线性模型求解:因为线性模型具有训练算法简单可处理海量数据等特性;
3. 很多情况下,如果不把 Outlier 数据提前过滤,就要采用可处理 Outlier 的模型(或者在模型训练过程中加入处理 Outlier 数据的算法);
5. 特征标准化是很重要的预处理:多维度特征组合在一起时,特征具有同一尺度的可比性很重要;
6. 绝大多数情况下,“线性相关” 很少存在(比如广告点击率和飘红长度)但是:可以一个大的 "非线性相关问题" 转化成 N 个小的 "线性相关问题";
7. LR 训练出来的特征权重和特征的重要性很相关,但并非完全代表特征的重要性(有很多情况需要特定考虑)