Logistic regression中使用极大似然参数估计目标函数的数学原理

众所周知逻辑回归(Logistic regression)是用来解决二分类的问题的,本身是由回归问题演变而来。

逻辑回归问题中使用sigmoid函数将模型的输出y映射到[0,1]之间,即y的取值为0或1,sigmoid函数如下:

                                                                    h_{\theta }(x;\theta )= \frac{1}{1+e^{-\theta ^{T}x}}

分类问题问题转化为:

                                                              \left\{\begin{matrix} P(y=1\mid x;\theta )=h_{\theta }(x)& & \\ P(y=0\mid x;\theta )=1-h_{\theta }(x)& & \end{matrix}\right.

可以将上式统写为:

                                                           P(y\mid x;\theta )=(h_{\theta }(x))^{y}(1-h_{\theta }(x))^{1-y}

引入似然函数来估计损失函数(loss function or cost function):

                                              L\left ( \theta \right )=\prod_{i=1}^{m}P\left ( y_{i}\mid x_{i};\theta \right )=\prod_{i=1}^{m}h_{\theta }(x_{i})^{y_{i}}(1-h_{\theta }(x_{i}))^{1-y_{i}}

逻辑回归最终是想找到能够将正负样本分开的\theta参数。

接下来我们分析一下为什么使用极大似然估计来得到loss function:

1)极大似然估计中采样产生的样本需要满足一个重要假设,所有采样的样本都是独立同分布的;

2)极大似然估计是在模型已定,参数未知的情况下,估计模型中的具体参数;

3)极大似然估计的核心是让产生所采样的样本出现的概率最大。即利用已知的样本结果信息,反推具有最大可能导致这些样本结果出现的模型的参数值。

既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。 

求最大似然函数估计值的一般步骤: 
(1)写出似然函数L\left ( \theta \right );似然函数值的大小意味着这组样本值出现的可能性的大小,是个概率值。 
(2)对似然函数取对数l\left ( \theta \right )=ln(L\left ( \theta \right )),并整理化简;对数函数是单调增函数,所以对数函数取最大值时,原函数也取得最大值。(对数函数y=log_{a}x,当a>1时单调递增,当0<a<1时单调递减。) 
(3)求导数,令导数为0,得到似然方程; 
(4)解似然方程,得到的参数即为所求。

在逻辑回归中使用极大似然构建损失函数的求解过程如下:

                                          

通过梯度上升算法来更新参数\theta

                                             \theta _{j}=\theta _{j}+\alpha (y^{(i)}-h_{\theta }(x^{(i)})})x_{j}^{i}

通常我们都会将损失函数转化为凸函数即负的似然函数,那样就可以使用我们经常所用的梯度下降算法来更新参数。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值