逻辑回归模型_从最大熵模型解释逻辑回归

最新推荐文章于 2022-07-21 22:29:15 发布

weixin_39852953

最新推荐文章于 2022-07-21 22:29:15 发布

阅读量149

点赞数

文章标签：逻辑回归模型

本文链接：https://blog.csdn.net/weixin_39852953/article/details/111368486

版权

我们都是小怪兽，终有一天，都会被正义的奥特曼杀死。

逻辑回归与最大熵模型

1 逻辑回归

1.1 Logistic Regression的模型定义

上述中

等价于

，之后不再一一赘述。

1.2 Logistic Regression解决何种问题

我们需要知道的是，LR模型解决的是分类问题，但是其命名为回归，这与几率这一概念的定义不无关系。几率（odds）是指该事件发生的概率与该事件不发生的概率的比值，如果一个事件发生的概率为

，那么其几率为：

，该事件的对数几率为：

而对于

而言，将1.1中两式代入，获取其对数几率为：

上式意义在于，

模型中输出

的对数几率为输出

的线性函数，这也是

模型明明是解决分类问题，却被命名为回归的由来（当然，这个其实就科普一下，没有啥实质性意义）。

1.3 Logistic Regression模型参数估计

模型的参数估计，使用了极大似然估计法，设有以下定义：

则，其似然函数为：

为解决连乘最后数值过小的问题，将连乘转化为连加，即取其对数，则对数似然函数如下：

在此基础上，对

求极大值，得到

的估计值。

至此，问题就变成以对数似然函数为目标函数的最优化问题，

学习中一般采用的方法是梯度下降法及拟牛顿法，可根据上述目标函数进行梯度求解，在这里不再一一赘述。那么通过上述方法，假设

的极大似然估计值是

，那么学到的

模型为：

1.4 Logistic Regression模型的一点思考

模型被广泛使用于分类任务，其由sigmoid函数将

的结果映射到

,这一操作，好像将大部分人都带入一个误区，映射到

就成为了概率，但是为什么$LR$模型计算出来的值可以作为一个概率呢？似乎很少有人去探讨。笔者经过一段时间的学习，最终觉得两个解释颇为合理，其中解释一建立来朴素贝叶斯模型的基础上，对于条件概率的由来经过一系列的公式推导，最终得出

模型计算出来的就是分类的概率值这一结论。考虑到在本文中，此证明与文题不符，就不在这提及（笔者将在后续的文章中进行阐述）。对于解释二，其站在最大熵模型的角度上对概率进行阐述了，其推导证明，所谓

模型，其本质上就是特殊化的最大熵模型。因此，引出最大熵模型的话题，笔者将在接下来的部分，介绍最大熵模型，以及其如何证明

模型与概率的关系。

2 最大熵模型（

）

2.1 最大熵原理

最大熵原理：对于概率模型，在所有可能分布的概率模型中，熵最大的模型是最好的模型。
- 而在模型学习时，往往会存在许多的前提约束条件，因此最大熵模型可以阐述为，在满足约束条件的模型集合中选择熵最大的模型。
- 而在满足已知条件前提下，如果没有更多的信息，则那些不确定部分都是“等可能的”。而等可能性通过熵最大化来刻画。
最大熵原理在概率模型中的现实意义：直接提出最大熵原理可能会让读者有点懵圈，换个角度想想可能会更好，在现实生活中，假设有一个箱子，箱子中都有红、白、黑三种小球，前提条件明确告知，实验者放置了
的红色小球，其他任何条件未知，在此前提下，绝大部分人会认为白、黑小球是均分的，也就是概率都是

（这就是所谓的人之常情，大多数人还是希望生活能够公平一点的）。这也就是最大熵原理中为何认为那些不确定部分都是“等可能的”。而如何与熵联系到一起去了呢？这与熵的定义有关，熵首先是度量信息不确定的一种指标，而在均匀分布时，熵值会达到最大。为了使其优化，将这种等可能性与熵值等价，从而说明了最大熵与等可能性的一致性。
- 最大熵原理选取熵最大的模型，而决策树（ID3）的划分目标选取熵最小的划分。原因在于：
- 最大熵原理认为在满足已知条件之后，选择不确定性最大（即：不确定的部分是等可能的）的模型。也就是不应该再施加任何额外的约束。因此这是一个求最大不确定性的过程，所以选择熵最大的模型。
- 决策树的划分目标是为了通过不断的划分从而不断的降低实例所属的类的不确定性，最终给实例一个合适的分类。因此这是一个不确定性不断减小的过程，所以选取熵最小的划分。
熵的定义

假设离散型随机变量

的概率分布为

，则熵为：