首先推导二类分类训练集上的逻辑斯蒂回归模型(Logistic Regression), 然后推导最大熵模型(Maximum Entropy Model), 最后给出给出最大熵模型等价于逻辑斯蒂回归模型的条件.
1. 逻辑斯蒂回归
训练集 T={ (xi,yi)|i=1,2,...,N},x∈Rn,y∈{ 0,1} .
我们假设特征 X 与输出
为了预测 Y 的取值,我们建立模型拟合
我们希望参数模型 f(x;β) 满足这样的性质:
- f(x;β)∈[0,1] .
- f 应该至少是个连续函数. 这是因为我们希望模型
f 的输出能够随 x 平滑地变化. -
f 应该尽可能简单.
幸运的是, 恰好存在一个函数完美满足上述所有条件,即sigmoid函数:
f(x;β)=11+e−(β0+βT1x)
于是,我们的模型变成:
P(Y=1|X=x)=11+e−(β0+βT1x)
我们使用最大似然估计来求解模型参数 β :
⎧⎩⎨⎪⎪⎪⎪maxβL(β)L(β