逻辑回归原理详解

最新推荐文章于 2024-05-29 16:42:20 发布

weixin_34855969

最新推荐文章于 2024-05-29 16:42:20 发布

阅读量247

点赞数

分类专栏：机器学习基础算法

本文链接：https://blog.csdn.net/weixin_34855969/article/details/105117544

版权

机器学习基础算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

逻辑回归原理详解

逻辑回归主要用于解决分类问题，并且是对于概率的分类，例如今天是雨天还是晴天，是雨天就是0概率，是晴天就是1概率。通常我们预测出的情况是今天是晴天的概率值。谈及逻辑回归的原理，需要先从广义线性回归（GLM）讲起：

广义线性回归（GLM）

广义线性回归满足以下的三个条件：

对于参数 $\theta$ ，y|x满足指数族分布
$T (y) = y$ , $T (y)$ 为充分统计量，对于预测值 $h_\theta(x)=E[T(y)|x]$
$\eta=\Theta^T x$

指数族分布

$p(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))\quad (1)$

$\eta$ 被称为自然参数
$T (y)$ 被称为充分统计量，常用的是 $T (y) = y$
$a(\eta)$ 被称为对割函数，可以起到归一化的作用
指数族参数 $\eta$ 是 $x$ 的线性组合，可以表示为 $\eta=\Theta^T x$
常见的指数族分布有：伯努利分布，高斯分布，多项式分布，泊松分布…

由指数族分布到逻辑回归

逻辑回归的数据分布满足伯努利分布，假设伯努利分布的均值为 $\phi$ ,则伯努利分布的概率密度函数可以表示为：
$P(y;\phi)=\phi^y(1-\phi)^{1-y}$
$\qquad \quad =exp(ylog\phi+(1-y)log(1-\phi)$
$\qquad \quad =exp(ylog\frac{\phi}{1-\phi}+log(1-\phi)) \quad (2)$
因为 $T (y) = y$ ,因此可以得到 $\eta=log\frac{\phi}{1-\phi} \quad(3)$
此时我们可以得到 $\phi=\frac{1}{1+e^{-\eta}} \quad(4)$
这样我们就得到了sigmoid函数

逻辑回归模型

对于二分类的问题 ,设伯努利分布的均值为 $\phi$ ,则可以得到：
$\phi=\frac{1}{1+e^{-\eta}}=\frac{1}{1+e^{-\theta^Tx}} \quad(5)$
为了方便计算，我们使得 $h_\theta=\frac{1}{1+e^{-\theta^T x}} \quad (6)$
此时逻辑回归（满足伯努利分布）的表达式为：
$P(y|x;\theta)=(h_\theta(x)^y(1-h_\theta(x))^{1-y}\quad(7)$
我们得到了样本的分布情况，我们想要那个最可能导致样本这样分布的参数。因此我们使用极大似然函数求最可能导致结果的那个参数。
似然函数为：
$L(\theta)=P(Y|X;\theta)$
$\qquad =\prod_{i=0}^{i=m}(h_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{1-y_i}\quad(8)$
对数似然函数为:
$l(\theta)=logL(\theta)$
$\quad \ \ =\sum_{i=0}^{i=m}y_ilog{h_\theta}(x_i)+(1-y_i)log(1-h_\theta(x_i))\quad(9)$
我们的目标是使对数函数最大化，此时只能使用梯度上升的算法去求最大值，为了使用梯度下降算法。我们将式（9）变为如下形式（除以m是使误差不再依赖样本数量）
$J(\theta)=-\frac{1}{m} [\sum_{i=0}^{i=m}y_ilog{h_\theta}(x_i)+(1-y_i)log(1-h_\theta(x_i))]\quad(10)$
此时的误差是由 $\theta$ 导致的，因此我们使用梯度下降更新 $\theta$ :
$\theta_j=\theta_j-\alpha \frac{\partial J(\theta)}{\partial \theta_j}$
$\frac{\partial J(\theta)}{\partial \theta_j}=-\frac{1}{m}\sum_{i=0}^{i=m}(y_i\frac{1}{h_\theta(x_i)}\frac{\partial h_\theta(x_i)}{\partial \theta_j}-(1-y_i)\frac{1}{1-h_\theta(x_i)}\frac{\partial(x_i)}{\partial \theta_j})$
$\qquad =-\frac{1}{m}\sum_{i=0}^{i=m}(y_i\frac{1}{h_\theta(x_i)}-(1-y_i)\frac{1}{1-h_\theta(x_i)})\frac{\partial h_\theta(x_i)}{\partial \theta_j}$
$\qquad =-\frac{1}{m}\sum_{i=0}^{i=m}(y_i\frac{1}{h_\theta(x_i)}-(1-y_i)\frac{1}{1-h_\theta(x_i)})h_\theta(x^i_j)(1-h_\theta(x^i_j))$
$\qquad = \frac{1}{m}\sum_{i=0}^{i=m}(h_\theta(x_i)-y_i)x_j^i \quad(11)$

其中sigmoid函数求导的性质： $\frac{\partial f(x)}{\partial x}=f(x)(1-f(x))$

weixin_34855969

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归原理详解

逻辑回归原理详解逻辑回归主要用于解决分类问题，并且是对于概率的分类，例如今天是雨天还是晴天，是雨天就是0概率，是晴天就是1概率。通常我们预测出的情况是今天是晴天的概率值。谈及逻辑回归的原理，需要先从广义线性回归（GLM）讲起：广义线性回归（GLM）广义线性回归满足以下的三个条件：对于参数θ\thetaθ，y|x满足指数族分布T(y)=yT(y)=yT(y)=y,T(y)T(y)T(y)...
复制链接

扫一扫