之前只是简单的接触过逻辑回归,今天针对于最近看论文的疑惑做一个整理;
逻辑回归与极大似然的关系:
逻辑回归的提出主要是在线性问题下为分类问题而提出的;
简单来说,针对于一个二分类问题,我们需要将线性函数映射为一个二元输出,并且要求能够利用常规优化方法,例如梯度下降,来求得最佳的参数值;
因此,正如一些博客所说,简单的使用跃迁函数是不可能的,原因是不可导;
采用对数几率函数来进行表示,即:
这样,可以将连续值映射到一个0,1区间中;
为什么要用该函数映射牵扯到后验概率的问题;
针对于一个模型,训练阶段,必定已知样本特征分布和标签,因此相当于已知分布结果反推参数,也就是所谓极大似然估计;
假设y为正例,1-y为负例,所以有几率:
若采用线性,拟合该几率的对数:
反求则可以得到:
因此可以说有:
实际sigmod函数为后验概率下Y=1情况的预测值;
对于极大似然函数,必须要兼顾两种取值情况,因此改写为一般形式:
由极大似然估计可以得到:
利用堆书简化形式,则有:
对于该式子,我们希望最大化,因此可以加符号和样本平均,得到需要最小化的损失函数:
这里注意一下,这里形式不太同意,但是大多采用In对数函数的形式,方便求导计算;
简单的计算一下求导过程:
也就是常规的损失函数的形式,求梯度求导便可得到:
另一种形式:
主要针对于另一种形式,看论文的时候有些许困惑;
如果样本标签为+1或者-1,则会针对后验概率有以下推导:
相应的,针对于论文里的形式,梯度为: