lr知识点

jyfstudy

于 2022-06-13 13:34:39 发布

阅读量309

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/jyfstudy/article/details/125258345

版权

本文探讨了逻辑回归（LR）与最大熵模型的关系，强调了特征交叉在LR中的作用及其问题，介绍了如何从二分类扩展到多类，以及LR优化方法和阈值调整对准确率召回率的影响。同时，比较了LR与SVM的区别，并揭示了两者在处理非线性和泛化性的差异。

摘要由CSDN通过智能技术生成

LR.docx

1 / 5
1、为什么LR模型又可称最大熵模型？
LR、softmax和最大熵模型之间的关系
Logistic回归是统计学习中的经典分类方法，可以用于二类分类也可以用于多类分类。
最大熵模型由最大熵原理推导出来，最大熵原理是概率模型学习或估计的一个准则，最大熵原理认为在所有可能的概率模型的集合中，熵最大的模型是最好的模型，最大熵模型也可以用于二类分类和多类分类。
Logistic回归模型与最大熵模型都属于对数线性模型。
逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应类别为二类时的特殊情况
指数簇分布的最大熵等价于其指数形式的最大似然。
二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然；
多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然。
5、最大熵模型和决策树模型的比对分析
粗看起来，上述模型似乎与在决策树中选用信息增益最大的特征参量有点儿矛盾。因为信息增益最大，即意味着要得到熵最小的模型。

两个模型中关于熵的定义完全一样，均用来表征模型的有序程度。熵值越大，越是无序。但两个模型其实并不矛盾，理由如下：

二者应用的前提不同。对于最大熵模型而言，在所有满足约束条件的模型中，如果没有其他的参考信息，则选用熵最大的模型；而决策树模型中，由于提供了特征参量这样的额外参考信息，因此不能直接应用最大熵原理。

决策树并没有使用最小熵模型。我们都知道，完全生长决策树的熵是最小的，然而却常常不是最好的模型（容易“过拟合”），经过剪枝后的决策树反而能够反映真实数据分布。如果说树的分裂意味着熵的减小，则剪枝意味着熵的增加；这样看来，我们选择的其实是应用了所有已知信息之后熵较大的模型。

决策树的思路是尽可能去拟合数据，然后加剪枝减少过拟合。

最大熵模型是先给你均匀分布，然后挖掘数据集里面隐含的约束条件来重新构造分布，使用的约束条件少就会欠拟合。决策树里面首先会选择信息增益最大的轴和切分点来切分，如果在最大熵模型里面也加上这个约束，然后依次对应起来。如果模型其中之一预测的精度比较高，那么最终两个模型的预测结果会非常接近。

最大熵原理：承认已知事物（知识）；对未知事物不做任何假设，没有任何偏见。

两个角度认识未知事物：

最大熵模型：对不确定度的无偏分配；
最大似然估计：对知识的无偏理解。
2 / 5
2、特征交叉
https://zhuanlan.zhihu.com/p/475769817

LR的简单性一方面使其结构简单、模型参数少，但另一方面导致模型对特征的提取简单，特征之间的组合为线性，因此LR模型对特征工程的要求和依赖高。

由于特征之间是线性组合，因此想要让LR学到特征之间的关联性，需手动进行特征交叉，交叉后的特征作为一项新的特征和已有特征线性组合，如式子(10)所示。手动特征交叉增加了模型的非线性。

手动特征交叉存在以下几个问题：

依赖人工经验

送入模型的特征一般会经过one-hot处理，因此 [公式] 的维度非常高，导致可进行交叉的组合非常庞大，这时哪些特征需要交叉哪些不需要交叉，依赖于算法工程师对业务理解的敏感度。

阿里早期使用的LS-PLM（混合逻辑回归）

设计思路：不同用户进来点击的东西是不一致的。让不同用户群体，不同场景更有针对性。对全量样本进行聚类。对每一个类别使用LR进行CTR预估。具体的ctr等于每个类别的概率乘以LR的概率。

有模型提出对所有特征进行两两交叉，如POLY2，虽然这样可以解决对交叉特征选择的问题，但也存在一些不足：(1) 两两交叉加剧了特征向量的稀疏性，容易导致一些交叉特征项的权重因为数据缺乏而无法有效训练，使其无法收敛；(2) 模型的参数发生了量级的变化，从 [公式] 增加到 [公式] ，极大增加了模型复杂度和训练复杂度。

稀疏性强

特征one-hot处理后变得稀疏，交叉后稀疏性增强。某些交叉特征项可能存在没有训练数据的问题，导致对应的参数无法更新。

交叉阶数有限

特征交叉的阶数可以是二阶、三阶和更高阶，手动二阶交叉对算法工程师的业务敏感性要求已经不低，如果进行三阶交叉，则难度更高，且稀疏性更强，因此一般使用二阶交叉。

LR模型本质上是对数据中出现过的模式进行学习，对应权重wi的更新就是对出现过的模式的学习，当测试数据中出现了训练数据中没有出现过的模式，模型则无法做出合适的反应，
3 / 5
也就是泛化性差。

泛化性差不仅是LR模型的问题，也是前深度学习时代大多数模型存在的问题，针对此有一些相应的策略，如相似性探索等，但无法从模型本身缓解这个问题。从模型本身提高泛化性，是深度学习时代embedding化的一大效果。
3、如果一维特征重复会有什么影响
逻辑回归在训练的过程当中，如果有很多的特征高度相关或者说有一个特征重复了100遍，会造成怎样的影响？
先说结论，如果在损失函数最终收敛的情况下，其实就算有很多特征高度相关也不会影响分类器的效果。
但是对特征本身来说的话，假设只有一个特征，在不考虑采样的情况下，你现在将它重复100遍。训练以后完以后，数据还是这么多，但是这个特征本身重复了100遍，实质上将原来的特征分成了100份，每一个特征都是原来特征权重值的百分之一。
如果在随机采样的情况下，其实训练收敛完以后，还是可以认为这100个特征和原来那一个特征扮演的效果一样，只是可能中间很多特征的值正负相消了。
https://blog.csdn.net/zk_ken/article/details/82284723

4、如何实现多分类
可以的，其实我们可以从二分类问题过度到多分类问题(one vs rest)，思路步骤如下：

1.将类型class1看作正样本，其他类型全部看作负样本，然后我们就可以得到样本标记类型为该类型的概率p1。

2.然后再将另外类型class2看作正样本，其他类型全部看作负样本，同理得到p2。

3.以此循环，我们可以得到该待预测样本的标记类型分别为类型class i时的概率pi，最后我们取pi中最大的那个概率对应的样本标记类型作为我们的待预测样本类型。

5、逻辑回归常用的优化方法有哪些
7.1 一阶方法
梯度下降、随机梯度下降、mini 随机梯度下降降法。随机梯度下降不但速度上比原始梯度下降要快，局部最优化问题时可以一定程度上抑制局部最优解的发生。

7.2 二阶方法：牛顿法、拟牛顿法
4 / 5
这里详细说一下牛顿法的基本原理和牛顿法的应用方式。牛顿法其实就是通过切线与x轴的交点不断更新切线的位置，直到达到曲线与x轴的交点得到方程解。在实际应用中我们因为常常要求解凸优化问题，也就是要求解函数一阶导数为0的位置，而牛顿法恰好可以给这种问题提供解决方法。实际应用中牛顿法首先选择一个点作为起始点，并进行一次二阶泰勒展开得到导数为0的点进行一个更新，直到达到要求，这时牛顿法也就成了二阶求解问题，比一阶方法更快。我们常常看到的x通常为一个多维向量，这也就引出了Hessian矩阵的概念（就是x的二阶导数矩阵）。

缺点：牛顿法是定长迭代，没有步长因子，所以不能保证函数值稳定的下降，严重时甚至会失败。还有就是牛顿法要求函数一定是二阶可导的。而且计算Hessian矩阵的逆复杂度很大。

拟牛顿法：不用二阶偏导而是构造出Hessian矩阵的近似正定对称矩阵的方法称为拟牛顿法。拟牛顿法的思路就是用一个特别的表达形式来模拟Hessian矩阵或者是他的逆使得表达式满足拟牛顿条件。主要有DFP法（逼近Hession的逆）、BFGS（直接逼近Hession矩阵）、 L-BFGS（可以减少BFGS所需的存储空间）。

6、如果改变分类的阈值准确率召回率等指标怎么变
在logistic regression当中，一般我们的概率判定边界为0.5，但是我们可以把阈值设定低一些，来提高模型的“敏感度”，试试看把阈值设定为0.3，再看看这时的评估指标(主要是准确率和召回率)。
阈值小的时候，召回率高但准确率低敏感度降低
7、LR SVM的共同和不同
Logistic模型和SVM都是用于二分类，现在大概说一下两者的区别

① 寻找最优超平面的方法不同

形象点说，Logistic模型找的那个超平面，是尽量让所有点都远离它，而SVM寻找的那个超平面，是只让最靠近中间分割线的那些点尽量远离，即只用到那些“支持向量”的样本——所以叫“支持向量机”。

② SVM可以处理非线性的情况

即，比Logistic更强大的是，SVM还可以处理非线性的情况。

③Logistic regression 和 SVM本质不同在于loss function的不同，Logistic regression的损
5 / 5
失函数是 cross entropy loss（交互熵）， SVM是hinge loss（这种损失函数直接来说与最大边界相关），Adaboost的损失函数是 exponential loss 。常见的回归模型通常用均方误差 loss。