【Machine Learning Done Wrong】机器学习七种易犯的错误

最新推荐文章于 2024-02-25 14:11:51 发布

pinyangtenglong

最新推荐文章于 2024-02-25 14:11:51 发布

阅读量551

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

【Machine Learning Done Wrong】http://t.cn/RvIHN3N

作者总结了机器学习七种易犯的错误：1.想当然用缺省Loss；2.非线性情况下用线性模型；3.忘记Outlier；4.样本少时用High Viriance模型；5.不做标准化就用L1/L2等正则；6.不考虑线性相关直接用线性模型；7.LR模型中用参数绝对值判断feature重要性。

参考：张栋_机器学习

1. 机器学习本质上是在解一个优化问题，优化目标定义错误（或者 loss function 定义错了），就全错了！

2. 尽量通过特征处理和变换，把非线性情况用线性模型求解：因为线性模型具有训练算法简单可处理海量数据等特性；

3. 很多情况下，如果不把 Outlier 数据提前过滤，就要采用可处理 Outlier 的模型（或者在模型训练过程中加入处理 Outlier 数据的算法）；

5. 特征标准化是很重要的预处理：多维度特征组合在一起时，特征具有同一尺度的可比性很重要；

6. 绝大多数情况下，“线性相关” 很少存在（比如广告点击率和飘红长度）但是：可以一个大的 "非线性相关问题" 转化成 N 个小的 "线性相关问题"；

7. LR 训练出来的特征权重和特征的重要性很相关，但并非完全代表特征的重要性（有很多情况需要特定考虑）

pinyangtenglong

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Machine Learning Done Wrong】机器学习七种易犯的错误

【Machine Learning Done Wrong】http://t.cn/RvIHN3N 作者总结了机器学习七种易犯的错误：1.想当然用缺省Loss；2.非线性情况下用线性模型；3.忘记Outlier；4.样本少时用High Viriance模型；5.不做标准化就用L1/L2等正则；6.不考虑线性相关直接用线性模型；7.LR模型中用参数绝对值判断feature重要性。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。