逻辑斯蒂回归_逻辑斯蒂回归（sigmoid）和最大熵模型（统计学习方法-李航）

最新推荐文章于 2021-10-27 10:09:04 发布

weixin_39872872

最新推荐文章于 2021-10-27 10:09:04 发布

阅读量282

点赞数

文章标签：逻辑斯蒂回归

本文链接：https://blog.csdn.net/weixin_39872872/article/details/111368560

版权

逻辑斯蒂回归是统计学习方法中的经典分类方法，最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model）。这两个模型都是属于对数线性模型。

逻辑斯蒂回归

sigmoid函数，形式如下：

它有一个非常好的性质，即当z趋于正无穷时，g(z)趋于1，而当z趋于负无穷时，g(z)趋于0，这非常适合于我们的分类概率模型。另外，它还有一个很好的导数性质：

g′(z)=g(z)(1−g(z))

这里的逻辑斯蒂分布看起来和sigmoid函数不一样，是因为sigmoid函数中的z进行了去均值和归一化处理

F（x）和f(x)函数图像如下：

长得是不是像高斯分布啊，F（x）关于（u，1/2）对称。形状参数γ越小，曲线在中心处上升得越快

二项逻辑斯蒂回归模型

这里将z=wx+b带入sigmoid函数求得概率即为P（Y=1|x），z=wx+b=0应该是一个分离超平面。当wx+b&amp;amp;amp;amp;amp;amp;amp;amp;gt;0时，P（Y=1|x）大于P（Y=0|x）。因此该输入实例x应该被分配为Y=1类别。

为了书写的紧凑形

逻辑斯蒂回归模型的特点

几率（odds）：一件事情发生概率与不发生概率的比值。（几率>1,说明发生的概率更大）

对数几率（对数几率表明>0,说明发生的概率>不发生的概率）：

就是说Y=1发生的概率由w*x决定，如果w*x大于0，说明Y=1发生的概率大于Y=1的概率

注：在我们运用sigmoid函数的时候，应该预先对x进行归一化处理，若不进行归一化处理，概率值大部分会落在1和-1，这样数据和数据之间就没有区分度。我们希望将输出概率大多落在0.5的左右两边。

by the way,sigmoid函数其实很符合概率特性的，w*x=0是分离超平面，是正类和负类的分割面，那么越大于0，说明是负类的概率越小，越有可能是正类。带入到sigmoid函数，w*x越大于零，函数值越大于0.5（离分离超平面越远）,根据sigmoid函数值的大小，也可以了解到实例x距离分离超平面的大小程度。

模型参数估计

极大似然估计就是就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！

连乘变为连加

对L（w）求极大值，就得到w的估计值。

求出带帽w的，就可以根据带帽w进行而分类了

求出带帽w的

多项逻辑斯蒂回归

最大熵模型——知之为知之不知为不知是知也！

最大熵原理

满足约束条件的模型集合中-;选取熵最大的模型

当每个x的类别都不一样并且每个类别的概率都相同时，熵取得最大

几何解释最大熵原理

约束越多，概率模型空间被拆分成越“小”的子空间，我们就是要在这些子空间寻找最大熵

最大熵模型的定义

所谓经验分布就是根据样本集合所得到的概率分布。ps：真正的分布是未知的

特征函数顾名思义，肯定与某个特征相关，比如特征天气等于晴朗，且输出y等于出去玩，则f（x，y）输出1，否则输出零。相当于在天气特征处做了一个切分

由于实例中特征天气为晴朗的有很多，因此，需要累加

联合分布等于边缘概率乘以条件概率。

这就是约束条件，就是约束了未知的P（y|x），自己的理解就是用定义在样本空间的期望去约束真实却看不见的期望，并且这个期望中的边缘概率分布我们也是不知道的，于是我们用经验边缘分布去代替，于是对真实期望的约束就被改为了对真实P（y|x）的约束。

条件熵表示在已知X的条件下，Y的条件概率分布的熵对X的期望值。in other word ，相当于先用x对Y做了一下分类，再计算熵。分类减小了不确定性，因此条件熵会比直接计算y的熵更小。假设从样本中抽取了n割特征，相应的就有n个特征函数。

也就是说我们到底要怎么样根据X的特征进行分类，到底是用天气分，还是心情，或者其他特征呢？我们的判别标准就是使得熵最大。

in a word, 我们的目标就是要将一个输入的实例进行分类。如何分类呢？就是判断在已知输入实例x的情况下，x属于类别y的概率，也就是条件概率P（y|x）。这个条件概率怎么来呢？于是就有了我们的约束，根据联合经验分布，和边缘经验分布把条件分布限制在一个可行域中。你也许会说为啥不直接求条件经验分布，那么最大熵原理给出了答案：最大熵原理认为，在所有可能的概率模型(分布) 中，熵最大的模型是最好的模型(分布)，也就是我们不要预先假定根据样本计算的条件经验分布就是真实的条件分布，而要根据已知条件边缘经验分布和联合经验分布去计算我们的条件分布。

最大熵模型的学习

P属于C就是P（y|x）要满足约束条件

这里将最优化的原始问题转化为无约束最优化的对偶问题

拉格朗日马大爷写得好

拉格朗日乘子法 - 搜索结果 - 知乎www.zhihu.com

看不懂什么先最大在最小可以看看下面这篇文章

苏克：拉格朗日函数为什么要先最大化？zhuanlan.zhihu.com

对偶问题：

如何通俗地讲解对偶问题？尤其是拉格朗日对偶lagrangian duality？www.zhihu.com

才疏学浅，望不吝赐教---------------

所谓伊人，在水一方，明明如月，何时可掇

weixin_39872872

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑斯蒂回归_逻辑斯蒂回归（sigmoid）和最大熵模型（统计学习方法-李航）

逻辑斯蒂回归是统计学习方法中的经典分类方法，最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model）。这两个模型都是属于对数线性模型。逻辑斯蒂回归sigmoid函数，形式如下：它有一个非常好的性质，即当z趋于正无穷时，g(z)趋于1，而当z趋于负无穷时，g(z)趋于0，这非常适合于我们的分类概率模型。另外，它还有一个很好的导数性质：g′(z)...
复制链接

扫一扫