逻辑回归的原理推导

最新推荐文章于 2022-01-22 11:11:57 发布

Rover Ramble

最新推荐文章于 2022-01-22 11:11:57 发布

阅读量227

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/rover2002/article/details/105665516

版权

机器学习专栏收录该内容

24 篇文章 1 订阅

订阅专栏

LR用于解决二分类问题。可以认为LR模型拟合的是z=w*x+b 这条直线(分类边界)，使得尽可能地将数据中的两个类别正确的分开。
预测函数：

$h_{\omega}(x) = g(\omega^{T}x) = \frac{1}{1+e^{-\omega^{T}x}}$
$0\le h_{\omega}(x)\le 1$

输出值不表示预测结果，而是数据被预测为1(正例)的概率: $P(y=1|x;\omega) = h_{\omega}(x)$ ，
那么预测为负例的概率就是 $1-h_{\omega}(x) = P(y=0|x;\omega)$ 。

损失函数:
$L(\omega) = -ylog\hat{y} -(1-y)log(1-\hat{y})$
用极大似然估计的方法得出。

逻辑回归如果用误差平方和作为损失函数的话，
$L(\omega) = \dfrac{1}{n} \sum\limits_{i=1}^{n}(\phi(z^{(i)}) - y^{(i)})^2$
其中，i表示第i个样本点， $y^{(i)}$ 表示第i个样本的真实值， $\phi(z^{(i)})$ 表示第i个样本的预测值，
$\phi(z)=\frac{1}{1+e^{-z}}, z^{(i)} = w^Tx^{(i)} + b$ ;
此时，将 $\phi(z^{(i)})=\frac{1}{1+e^{-z}}$ 代入的话，会发现这是一个非凸函数，
这就意味着代价函数有着许多的局部最小值，不利于我们的求解。
解决方法就是用极大似然估计。

为什么用负对数似然作为损失函数呢?

极大似然估计：

把 $h_{\omega}(x)$ 视为Y=1的后验估计，假设因变量y服从伯努利分布，取值为0和1，那么
$h_{\omega}(x)$
$1-h_{\omega}(x)$
两式合并： $h_{\omega} (x)^y (1-h_{\omega} (x))^{1-y}$

对n个数据 {(x1,y1), (x2,y2), (x3,y3), … (Xn,Yn)},看作一组事件发生的总概率：
P总 = p(y1|x1)p(y2|x2)p(y3|x3)…p(yn|xn)
= $\prod\limits_{n=1}^{N} p^{y_{n}}(1-p)^{1-y_{n}}$
这里， $p(y|x)=h_{\omega}$ 是一个关于w的函数，x,y是已知数据，所以
P总是一个关于w的函数，未知变量只有一个w。

用极大似然估计来根据给定的训练集估计出参数w:

(1) 写出极大似然函数(Likehood)如下：
$\begin{aligned} L(\omega)&= \prod_{i=1}^{m} p(y_i | x_i; \omega) \\ &= \prod_{i=1}^{m} h_{\omega}(x_i)^{y_i} (1-h_{\omega}(x_i)^{1-y_i} \\ \end{aligned}$
可见，似然函数L(w)和上面的 $P_{总}$ 是一样的。

(2) 两边取对数：
$l(w)=lnL(w)=\sum\limits_{i = 1}^m [ y_{i}ln(h_{\omega}(x_{i})) + (1 - y_{i})ln(1-h_{\omega}(x_{i})) ]$
取对数后l(w)与 $P_{总}$ 的单调性是一样的。

参数估计的意思就是，通过改变w的值，使得 $P_{总}$ 有不同的取值，
选取使 $P_{总}$ 最大的那个 $\omega^{*}$ ，就认为是我们要求得的w。写成公式：
$\omega^{*} = \mathop{\arg\max}\limits_{\omega}\, l(\omega)$

(2.5) 取负号
为了让最大似然值和最小损失相对应，
在l(w)前面加个负号，就从最大似然变为最小化负对数似然函数，作为LR的损失函数。
LR的损失函数是这么来的！

$\begin{aligned} J(\omega) &= - \frac{1}{m} l(\omega) \\ &= - \frac{1}{m} \sum_{i = 1}^m [ y_{i}ln(h_{\omega}(x_{i})) + (1 - y_{i})ln(1-h_{\omega}(x_{i})) ] \\ \end{aligned}$ {损失函数}
简记为：
$Loss(\omega) = -ylog\hat{y} -(1-y)log(1-\hat{y})$

(3) 将对数似然函数对各参数求偏导数并令其为0，得到对数似然方程组。
(4) 从方程组中解出各个参数。
既然要求J(w)的极小值，这里就换用梯度下降法求w
$w_j := w_j + \Delta w_j,\ \Delta w_j = -\eta \dfrac{\partial J(w)}{\partial w_j}$

先求偏导：
$\begin{aligned} \frac{ \partial J(\omega)} {\partial \omega_j} &= -\frac{1}{m} \sum [ y_{i} \frac{1}{h_{\omega}(x_i)} \dfrac{\partial h_{\omega}(x_i)}{\partial \omega} +(1-y_i) \frac{-1}{1-h_{w}(x_i)} \dfrac{\partial h_{\omega}(x_i)}{\partial \omega}] \\ &= -\frac{1}{m} \sum_{i}^{m} [ \dfrac {y_i - h_{\omega}(x_i)} { h_{\omega}(x_i)(1-h_{\omega}(x_i)) } ] \dfrac{\partial h_{\omega}(x_i)}{\partial \omega} \\ \end{aligned}$
$h_{\omega}(x)$ 首先是个sigmoid函数，其导数 g’(x) = g(x)(1 - g(x)) ，于是
把下面h(x)对w的偏导数代入上式：

$\begin{aligned} \dfrac{\partial h_{\omega}(x_i)}{\partial \omega} &= h_{w}(x_i)(1-h_{\omega}(x_i))\dfrac{\partial (-\omega^Tx)}{\partial \omega_j} \\ &= -x_{i,j} h_{\omega}(x_i)(1-h_{\omega}(x_i)) \end{aligned}$
继续得到：
$\begin{aligned} \frac{ \partial J(\omega)} {\partial \omega_j} &= - \frac{1}{m} \sum_{i}^{m} (y_i - h_{\omega}(x_i)) (-x_{i,j}) \\ &= - \frac{1}{m} \sum_{i}^{m} (-y_i \cdot x_{i,j} + h_{\omega}(x_i) \cdot x_{i,j}) \\ & = -\frac{1}{m} \sum_{i}^{m} (h_{\omega}(x_i) - y_i) x_{i,j} \end{aligned}$
上述中 $x_{i,j}$ 表示第i个样本的第j个属性的取值。

于是， $\omega$ 的更新方式：
$\omega_{j+1} = \omega_j - \alpha \sum\limits_{i=1}^{m} (h_{\omega}(x_i) - y_i) x_{i,j}$

对于随机梯度下降，每次只取一个样本，则ω的更新方式为：
$\omega_{j+1} = \omega_j - \alpha (h_{\omega}(x) - y) x_{j}$
xj 为这个样本第j个属性的值。

写成矩阵的形式：
$\leftarrow W - \alpha X^T(\hat{Y} - Y)$

用梯度下降估计出似然函数的ω，就可以代入预测函数使用了，
Tips: 似然最大就是损失最小。

参考：
逻辑回归的本质–极大似然估计
 逻辑回归
 公式推导

Rover Ramble

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归的原理推导

LR用于解决二分类问题。可以认为LR模型拟合的是z=w*x+b 这条直线(分类边界)，使得尽可能地将数据中的两个类别正确的分开。预测函数：hω(x)=g(ωTx)=11+e−ωTxh_{\omega}(x) = g(\omega^{T}x) = \frac{1}{1+e^{-\omega^{T}x}}hω(x)=g(ωTx)=1+e−ωTx10≤hω(x)≤10\le h_{\omega...
复制链接

扫一扫

专栏目录