逻辑斯蒂回归_逻辑斯蒂回归(sigmoid)和最大熵模型(统计学习方法-李航)

ec0cc427d5d2507d25fd4e9eb0906c2e.png

逻辑斯蒂回归是统计学习方法中的经典分类方法,最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。这两个模型都是属于对数线性模型。

逻辑斯蒂回归

sigmoid函数,形式如下:

它有一个非常好的性质,即当z趋于正无穷时,g(z)趋于1,而当z趋于负无穷时,g(z)趋于0,这非常适合于我们的分类概率模型。另外,它还有一个很好的导数性质:

g′(z)=g(z)(1−g(z))

143370a4a1c0762655eb2bd2c3fa6789.png
这里的逻辑斯蒂分布看起来和sigmoid函数不一样,是因为sigmoid函数中的z进行了去均值和归一化处理

F(x)和f(x)函数图像如下:

02f1f655d0d596718f16cbb3c66e9e05.png
长得是不是像高斯分布啊,F(x)关于(u,1/2)对称。形状参数γ越小,曲线在中心处上升得越快

二项逻辑斯蒂回归模型

fc152399ff5fd2d07d8ffda405596e77.png

d97355b4f62f2322dddc0c6ad67558e3.png
这里将z=wx+b带入sigmoid函数求得概率即为P(Y=1|x),z=wx+b=0应该是一个分离超平面。当wx+b>0时,P(Y=1|x)大于P(Y=0|x)。因此该输入实例x应该被分配为Y=1类别。

640f0a8d49662e20d5e725989ca2c353.png

ec91921a87a1fb6b2bd763225ee6779d.png
为了书写的紧凑形

逻辑斯蒂回归模型的特点

几率(odds):一件事情发生概率与不发生概率的比值。(几率>1,说明发生的概率更大)

对数几率(对数几率表明>0,说明发生的概率>不发生的概率):

8a3d6c75196c1637a3c33bb68c9c488f.png

c240f53fa83e251ee400569c1b58f54e.png

30f3f1bb31df6129b9ff2b530c6417de.png
就是说Y=1发生的概率由w*x决定,如果w*x大于0,说明Y=1发生的概率大于Y=1的概率

1824fb8a1dde63ea0218b550d3a1ac65.png
注:在我们运用sigmoid函数的时候,应该预先对x进行归一化处理,若不进行归一化处理,概率值大部分会落在1和-1,这样数据和数据之间就没有区分度。我们希望将输出概率大多落在0.5的左右两边。

by the way,sigmoid函数其实很符合概率特性的,w*x=0是分离超平面,是正类和负类的分割面,那么越大于0,说明是负类的概率越小,越有可能是正类。带入到sigmoid函数,w*x越大于零,函数值越大于0.5(离分离超平面越远),根据sigmoid函数值的大小,也可以了解到实例x距离分离超平面的大小程度。

模型参数估计

96daa26304f200853f1d6ec3c3dfb955.png
极大似然估计就是就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!

d445b84e481c98702319b528452b9346.png
连乘变为连加

对L(w)求极大值,就得到w的估计值。

e9dfdc684b53d53af5043cc2b95592b7.png
求出带帽w的,就可以根据带帽w进行而分类了

求出带帽w的

多项逻辑斯蒂回归

v2-0ca9569acaeca38d1fdde06bf5171b05_b.jpg

e653ead10c751e918d198c4a019c32f7.png

15c7977aa5fa6940b695b8fa74ed000c.png

最大熵模型——知之为知之 不知为不知 是知也!

最大熵原理

1ee743334fdcfc92a8e11911f0012844.png
满足约束条件的模型集合中-;选取熵最大的模型

9ad9c96b32c9b122c1450753eeb4efa1.png
当每个x的类别都不一样并且每个类别的概率都相同时,熵取得最大

09d64ce2e09ab8d64730314b0d891de0.png

edd5f08e2dea4b13a2edabd0c62fa846.png

几何解释最大熵原理

1e2dce3b48089c738bd8f2ae4c3dd6ba.png

7ed17ad2b5b0d3913d3bac678aa61299.png
约束越多,概率模型空间被拆分成越“小”的子空间,我们就是要在这些子空间寻找最大熵

最大熵模型的定义

b6c3ea97ab1b79ca7cd6f11db6363a04.png

79d991e04ed43816a0483d3696263c72.png
所谓经验分布就是根据样本集合所得到的概率分布。ps:真正的分布是未知的

87778b0ddf340b97a2382047a4166955.png

4ad9bf168b5ce6d343cb5656eb25d69a.png
特征函数顾名思义,肯定与某个特征相关,比如特征天气等于晴朗,且输出y等于出去玩,则f(x,y)输出1,否则输出零。相当于在天气特征处做了一个切分

db8a72d3de1ee1deb4820653da56724f.png
由于实例中特征天气为晴朗的有很多,因此,需要累加

21782b34ad7ca846760815c514b688a4.png
联合分布等于边缘概率乘以条件概率。

305e83cd05f27956388f507aee9ddf79.png
这就是约束条件,就是约束了未知的P(y|x),自己的理解就是用定义在样本空间的期望去约束真实却看不见的期望,并且这个期望中的边缘概率分布我们也是不知道的,于是我们用经验边缘分布去代替,于是对真实期望的约束就被改为了对真实P(y|x)的约束。

f4944cd6720dc225a36fb75024b5b806.png
条件熵表示在已知X的条件下,Y的条件概率分布的熵对X的期望值。in other word ,相当于先用x对Y做了一下分类,再计算熵。分类减小了不确定性,因此条件熵会比直接计算y的熵更小。假设从样本中抽取了n割特征,相应的就有n个特征函数。

a086aac9431433eb1bb34911ada5fbb3.png
也就是说我们到底要怎么样根据X的特征进行分类,到底是用天气分,还是心情,或者其他特征呢?我们的判别标准就是使得熵最大。

in a word, 我们的目标就是要将一个输入的实例进行分类。如何分类呢?就是判断在已知输入实例x的情况下,x属于类别y的概率,也就是条件概率P(y|x)。这个条件概率怎么来呢?于是就有了我们的约束,根据联合经验分布,和边缘经验分布把条件分布限制在一个可行域中。你也许会说为啥不直接求条件经验分布,那么最大熵原理给出了答案: 最大熵原理认为,在所有可能的概率模型(分布) 中,熵最大的模型是最好的模型(分布),也就是我们不要预先假定根据样本计算的条件经验分布就是真实的条件分布,而要根据已知条件边缘经验分布和联合经验分布去计算我们的条件分布。

最大熵模型的学习

af841f1dc93ead18f490435706f2d438.png
P属于C就是P(y|x)要满足约束条件

3a91c6e07252022af39eb6397cd5d3e3.png
这里将最优化的原始问题转化为无约束最优化的对偶问题

0977be593ca8f93ddb1b3fe395195ffb.png
拉格朗日马大爷写得好
拉格朗日乘子法 - 搜索结果 - 知乎​www.zhihu.com

280246f8bf11bcc83a48ad184a29b647.png

看不懂什么先最大在最小可以看看下面这篇文章

苏克:拉格朗日函数为什么要先最大化?​zhuanlan.zhihu.com

对偶问题:

如何通俗地讲解对偶问题?尤其是拉格朗日对偶lagrangian duality?​www.zhihu.com

fd9c12be36654c0f8fca3ed250b855bb.png

44f62836489e45b54905e7d30fbf29a8.png

才疏学浅,望不吝赐教---------------

所谓伊人,在水一方,明明如月,何时可掇

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值