第6章 逻辑斯谛回归与最大熵模型
逻辑斯谛回归
(logistic regression)是经典分类方法。最大熵
是概率模型学习的一个准则,推广至分类问题即为最大熵模型
(maximum entropy model)。二者都属于对数线性模型
逻辑斯谛分布
(logistic distribution),设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数, γ>0 γ > 0 为形状参数, μ μ 为位置参数
F(x)=P(X≤x)=11+e−(x−μ)/γf(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2 F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2分布函数属于逻辑斯谛函数,图形为S形曲线(sigmoid curve),以 (μ,12) ( μ , 1 2 ) 中心对称
二项逻辑斯谛回归模型
(binomial logistic regression model)是一种分类模型,由条件概率分布P(Y|X)表示; w⋅x+b w ⋅ x + b 扩充改造后为 w⋅x w ⋅ x
P(Y=1|x)=exp(w⋅x+b)1+exp(w⋅x+b)P(Y=0|x)=11+exp(w⋅x+b) P ( Y = 1 | x ) = exp ( w ⋅ x + b ) 1 + exp ( w ⋅ x + b ) P ( Y = 0 | x ) = 1 1 + exp ( w ⋅ x + b )几率
(odds)是指事件发生的概率和不发生的概率的比值: p1−p p 1 − p对数几率
(log odds) logit(p)=logp1−p l o g i t ( p ) = log p 1 − p- 输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型(式1),模型为(式2)
logP(Y=1|x)1−P(Y=1|x)=w⋅xP(Y=1|x)=exp(w⋅x)1+exp(w⋅x)P(Y=0|x)=11+exp(w⋅x) log P ( Y = 1 | x ) 1 − P ( Y = 1 | x ) = w ⋅ x P ( Y = 1 | x ) = exp ( w ⋅ x ) 1 + exp ( w ⋅ x ) P ( Y = 0 | x ) = 1 1 + exp ( w ⋅ x ) - 学习时,应用极大似然估计法估计模型参数
P(Y=1|x)=π(x), P(Y=0|x)=1−π(x) P ( Y = 1 | x ) = π ( x ) , P ( Y = 0 | x ) = 1 − π ( x )
似然函数为
∏i=1N[π(xi)]yi[1−π(xi)]1−yi ∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i
对数似然函数为
L(w)=∑I=1N[yilogπ(xi)+(1−yi)log(1−π(xi))]=∑I=1N[yilogπ(xi)1−π(xi)+log(1−π(xi))]=∑I=1N[yi(w⋅xi)−log(1+exp(w⋅xi))] L ( w ) = ∑ I = 1 N [ y i log π ( x i ) + ( 1 − y i ) log ( 1 − π ( x i ) ) ] = ∑ I = 1 N [ y i log π ( x i ) 1 − π ( x i ) + log ( 1 − π ( x i ) ) ] = ∑ I = 1 N [ y i ( w ⋅ x i ) − log ( 1 + exp ( w ⋅ x i ) ) ]
则为对 L(w) L ( w ) 求极大值得到 w w 的估计值,以对数似然函数为目标函数的最优化问题,通常采用梯度下降法和拟牛顿法求解 - 推广为
多项逻辑斯谛回归模型
(multi-nominal logistic regression model)用于多类分类,假设类别为{1,2,…,K},则模型为
P(Y=k|x)=exp(wk⋅x)1+∑K−1k=1exp(wk⋅x)P(Y=K|x)=11+∑K−1k=1exp(wk⋅x) P ( Y = k | x ) = exp ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x ) P ( Y = K | x ) = 1 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x ) - 最大熵模型(maximum entropy model)由最大熵原理推导实现
最大熵原理
是概率模型学习的一个准则。认为熵最大的模型是最好的模型。即在满足约束条件下的模型集合中选取熵最大的模型- 当X服从均匀分布时,熵最大
最大熵模型
,假设满足所有约束条件的模型集合为
C≡{P∈P|Ep(fi)=EP~(fi), I=1,2,...,n} C ≡ { P ∈ P | E p ( f i ) = E P ~ ( f i ) , I = 1 , 2 , . . . , n }
定义在条件概率分布P(Y|X)上的条件熵为
H(P)=−∑x,yP~(x)P(y|x)logP(y|x) H ( P ) = − ∑ x , y P ~ ( x ) P ( y | x ) log P ( y | x )
则条件熵H(P)最大的模型称为最大熵模型,对数为自然对数- 最大熵模型学习,约束最优化问题,求解对偶问题,拉格朗日乘子法。。。(略)
改进的迭代尺度法
(improved iterative scaling,IIS)是一种最大熵模型学习的最优化方法- 拟牛顿法(略)