众所周知逻辑回归(Logistic regression)是用来解决二分类的问题的,本身是由回归问题演变而来。
逻辑回归问题中使用sigmoid函数将模型的输出y映射到[0,1]之间,即y的取值为0或1,sigmoid函数如下:
分类问题问题转化为:
可以将上式统写为:
引入似然函数来估计损失函数(loss function or cost function):
逻辑回归最终是想找到能够将正负样本分开的参数。
接下来我们分析一下为什么使用极大似然估计来得到loss function:
1)极大似然估计中采样产生的样本需要满足一个重要假设,所有采样的样本都是独立同分布的;
2)极大似然估计是在模型已定,参数未知的情况下,估计模型中的具体参数;
3)极大似然估计的核心是让产生所采样的样本出现的概率最大。即利用已知的样本结果信息,反推具有最大可能导致这些样本结果出现的模型的参数值。
既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。
求最大似然函数估计值的一般步骤:
(1)写出似然函数;似然函数值的大小意味着这组样本值出现的可能性的大小,是个概率值。
(2)对似然函数取对数,并整理化简;对数函数是单调增函数,所以对数函数取最大值时,原函数也取得最大值。(对数函数,当a>1时单调递增,当0<a<1时单调递减。)
(3)求导数,令导数为0,得到似然方程;
(4)解似然方程,得到的参数即为所求。
在逻辑回归中使用极大似然构建损失函数的求解过程如下:
通过梯度上升算法来更新参数:
通常我们都会将损失函数转化为凸函数即负的似然函数,那样就可以使用我们经常所用的梯度下降算法来更新参数。