LR模型常见问题小议

最新推荐文章于 2022-06-22 12:19:00 发布

Dinosoft

最新推荐文章于 2022-06-22 12:19:00 发布

阅读量6.9k

点赞数 1

分类专栏：机器学习文章标签： LR 机器学习

本文链接：https://blog.csdn.net/Dinosoft/article/details/50492309

版权

// 毕竟不是什么大牛，只是总结一下自己的一些认识和想法，如果有不正确的，还请大牛们斧正。

经常说的2/8原则，LR肯定就是能解决80%问题中那20%的工具。所以LR还是值得好好研究的。发现以前对LR重视不够，总想着赶紧把其他算法也学了，才能拉小跟同事之间机器学习的gap。其实LR用得还是挺多的，而且效果还是不错的。一些高大上的算法，在公司这种大数据面前不一定跑得动，即使跑得动，效果也不一定好，而且还有可解释性和工程维护方面复杂度的问题。这倒是挺残酷的现实。

发现学完coursera的机器学习课程后，离具体实践还是有不少距离，也没找到什么好的资料可以学习（如果谁发现有的话，麻烦告诉我一声吧），耳濡目染了一些奇技淫巧，总结一下，有一些其实之前的笔记也零散提到了。

数据归一化

仔细区分的话，有两种：

归一化： (x-最小值)/(最大值-最小值)
标准化： (x-平均数)/标准差

反正就是把数据缩放到大小差不多，在1左右。这样起到的作用是加速迭代。根本原因其实是因为你偷懒，没有为每一个特征单独设置一个a。既然用了同一个a，那你也要保证数据scale也差不多。

特征离散化&组合

刚开始觉得，机器学习公司里有现成的包可以调用，然后把数据灌进去就好了，机器学习到底有啥搞头呢? 后来才搞明白，现实中，机器学习里面重要的一环其实就是搞“特征工程”，如果你对数据有足够的敏锐，能抽取出一些有效的特征，往往比算法本身的优化来得有效得多。怎么抽取特征这里就不多说，这里所说常见的特征处理方法：离散化和特征组合。

离散化

离散化就是把数值型特征离散化到几个固定的区间段。比如说成绩0-100，离散化成A、B、C、D四档，然后用4个01特征来one-hot编码，比如
A为1,0,0,0
B为0,1,0,0
C为0,0,1,0
D为0,0,0,1
那第一位就表示是否为A，第二位表示是否为B……
这里起到的作用就是减少过拟合，毕竟95和96分的两个学生能力不见得就一定有差别，但是A的学生跟D的比起来还是有明显差别的。其实就是把线性函数转换成分段阶跃函数了。

另外一种，比如把汽车时速按10公里/小时之类的分一些档，就像这样：
0-10
10-20
20-30
……

如果现在我们想学习的目标是油耗