1 逻辑斯蒂回归模型
二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布
表示,形式为参数化的逻辑斯蒂分布,这里随机变量
取值为实数,随机变量
取值为1或-1。
对于给定的输入实例
,按照上面式可以求得
和
。逻辑斯蒂回归比较两个条件概率值的大小,将实例
分到概率值较大的那一类。
有时为了方便,将权值向量和输入向量进行扩充,仍记作
,即
,这时候,逻辑斯蒂回归模型如下:
2 模型参数估计
2.1 损失函数
逻辑斯蒂回归模型学习时,对于给定的训练数据集
,其中,
,可以应用极大似然估计法估计模型参数
对于我们用sigmoid函数带入,用对称性
得
对于不同的模型,
是一样的,乘上这些值对于我们选择最优的模型没有帮助,故略去。
简化上述,可得两种表示方式
- 形式一:
- 形式二:
下面,通过极大似然估计得到的函数取负数,得到等价的需要最小化的损失函数
- 形式一:
- 形式二:
所以,损失函数为
- 形式一:
- 形式二:
2.2 证明损失函数为交叉熵
如果熟悉交叉熵损失函数,那么可以发现对于形式二,其定义就是交叉熵损失函数。我们现在试着从交叉熵的公式推导到形式一,并证明形式一和形式二等价。
形式二与形式一等价推导
如果不太熟悉交叉熵损失函数,可先回顾一下:Cross Entropy Loss Function
对于二分类损失问题,交叉熵损失函数定义为
其中
-
,一般规定正类为1,负类为0;
-
为取正类的概率;
- 对于每个样本上式,其中一项为0;
对于逻辑回归来说,其交叉熵损失函数中,
用逻辑函数带入,得
我们发现
我们可以简化上式,得
所以,我们发现,对逻辑斯蒂回归模型求极大似然估计得到的损失函数,本质上就是交叉熵损失函数。
3 学习算法
对于逻辑回归的损失函数,由于是凸函数,所以我们可以使用梯度下降法来求解。现在,我们推导一下求导过程
3.1 形式一:
对于形式一,其损失函数如下
对
求偏导,令
,
第一项
第二项
第三项
最后得
通过梯度更新参数:
3.2 形式二:
对于形式二,其损失函数如下
参考交叉熵求导,可得
3.3 证明形式一与形式二等价
对于形式一,我们得到求导的结果为
当
时
上述的第三步,主要用到了sigmoid函数的对称性,最后得到的结果与形式二求导的结果一致。
当
时
注意到,形式一和形式二对y
取负类的取值不同。所以,上述推导的结果和形式二也是一样的。