连载｜逻辑回归

最新推荐文章于 2021-04-25 00:02:08 发布

二哥不像程序员

最新推荐文章于 2021-04-25 00:02:08 发布

阅读量2k

点赞数 1

分类专栏：数据挖掘机器学习文章标签：机器学习逻辑回归 python 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35164554/article/details/105239988

版权

机器学习同时被 2 个专栏收录

48 篇文章 12 订阅

订阅专栏

40 篇文章 18 订阅

订阅专栏

一、逻辑斯蒂分布

逻辑斯蒂分布也叫作增长分布，其分布函数是一个增长函数。

设X是连续随机变量，X服从逻辑斯谛分布是指X具有下列分布函数和密度函数：

分布函数： $F(x)=P(X\leqslant x)=\frac{1}{1+e^{-(x-\mu )/y}}$

密度函数： $f(x)=F'(x)=\frac{e^{-(x-\mu)/y}}{\gamma (1+e^{-(x-\mu)/y})^{2}}$

上式中， $\mu$ 为位置参数， $\gamma > 0$ 为形状参数。

在不同的参数下概率密度函数 $p(x;\mu ,\gamma )$ 的图像如下所示（图中的s是参数 $\gamma$ ）：

在这里插入图片描述

在不同参数下分布函数 $p(x;\mu ,\gamma )$ 的图像如下所示（图中的s是参数 $\gamma$ ）：
在这里插入图片描述

根据分布函数我们可以看出图像呈s型，且关于点 $(\mu,\frac{1}{2})$ 成中心对称，曲线在两端的增长速度很慢，在中间的增长速度很快，且 $\gamma$ （s）的值越小增长速度越快。

当我们选择 $\mu=0,\gamma=1$ 的时候，逻辑斯蒂概率分布函数就是我们逻辑斯蒂回归中药用到的sigmoid函数，即：

$sigmoid(z)=g(z)=\frac{1}{1+e^{-z}}$

其导数： $g^{'} (z) = g (z) (1 - g (z))$ (这是一个很好的性质，后文中我们会用到）。

二、逻辑回归的由来

我们都知道了线性回归可以进行回归学习，但是想要去做分类问题的时候应该怎么办呢？其实我们只需要去找到一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。

我们首先考虑二分类任务，其输出标记为y={0,1}，而线性回归模型产生的预测值z=w^Tx+b是实值，我们需要的是将这个实值z转换为0/1值，最理想的是“单位阶跃函数”，也就是如下的形式。

$y=\left\{\begin{matrix} 0 , z<0;& & \\ 0.5, z=0;& & \\ 1, z>0.& & \end{matrix}\right.$

这个函数代表的也就是若预测值z大于0就判为正例，小于0则判为负例，预测值为临界值0则可以任意判别，对应的图形表示如下。

对于图中的单位阶跃函数（红色）我们可以看出它并不是连续的，于是我们希望找到能在一定程度上近似单位阶跃函数的替代函数，并希望它是单调可微的，也就是如下的形式：

$y=\frac{1}{1+e^{-z}}$

性质：我们把用g(z)来表示y，它的导数形式为 $g^{'} (z) = g (z) (1 - g (z))$ 。

该函数我们称作对数几率函数，也可以称作“Sigmoid函数”，它将z值转化为了一个接近0或1的y值。我们结合z的表达式可以得到如下的形式：

$y=\frac{1}{1+e^{-(w^Tx+b)}}$

三、逻辑回归的推导

对于上文中这种将z（线性回归函数）带入到sigmoid函数转化为分类问题的形式我们可以把它叫做逻辑回归（logistic regression）

从二分类问题入手，我们给定数据集 $D({(x_{i},y_{i})}_1^{m})$ ，我们希望对于输入数据 $x\in R$ ，有输出 $y_{i}\in\left \{ 0,1 \right \}$ ，一类为正例，一类为负例。``

首先我们进行一个设定（g(z)表示sigmoid函数）：

$x^i$ 为正例的概率： $h_{\theta }(x^{(i)})=g(\theta^T x^{( i )})$

x^i为负例的概率： $1-h_{\theta }(x^{ ( i )})=1-g(\theta^T x^ {( i )})$

对于真实标记为正例的样本我们希望 $h_{\theta }(x^{(i)})$ 越大越好。

对于真实标记为负例的样本我们希望 $1-h_{\theta }(x^{(i)})$ 越大越好。

利用极大似然，我们希望得到：

$\prod_{i=1}^{m}=h_{\theta }(x^{( i )})^{(y^{(i)})}*(1-h_{\theta }(x^{( i )}))^{(1-y^{(i)}) }$

即：

$max\frac{1}{m}\sum_{i=1}^{m}y^{(i)}log (h_{(\theta) }(x^{(i)}))+(1-y^{(i)})log(1- h_{(\theta) }(x^{(i)}))$

即：

$-\frac{1}{m}\sum_{i=1}^{m}y^{(i)}log (h_{(\theta) }(x^{(i)}))+(1-y^{(i)})log(1- h_{(\theta) }(x^{(i)}))$

在实际应用中我们需要不断的减小loss使得模型优化，我们采用梯度下降法来优化模型：

（对loss进行求导，我们只处理\sum后的补分即可）

$\frac{dl}{d\theta}=y*\frac{1}{h_{\theta}(x)}*h_{\theta}'(x)*x+(1-y)*\frac{1}{1-h_{\theta}(x)}*(-h_{\theta}'(x))*x$

$=y*(1-h_{\theta}(x))*x+(1-y)*h_{\theta}(x)*x*-1$ （此处用到sigmoid函数的求导特性）

$=(y-h_{\theta}(x))*x$

由此可得梯度为：

$grads=\sum_{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)}))*x^{(i)}$

梯度参数更新即为：

$\theta:=\theta-\sum_{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)}))*x^{(i)}$

以上便是逻辑回归的损失函数的推导以及梯度下降法参数更新的推导过程。
在这里插入图片描述

二哥不像程序员

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
连载｜逻辑回归

一、逻辑斯蒂分布逻辑斯蒂分布也叫作增长分布，其分布函数是一个增长函数。设X是连续随机变量，X服从逻辑斯谛分布是指X具有下列分布函数和密度函数：分布函数：F(x)=P(X⩽x)=11+e−(x−μ)/yF(x)=P(X\leqslant x)=\frac{1}{1+e^{-(x-\mu )/y}}F(x)=P(X⩽x)=1+e−(x−μ)/y1密度函数：f(x)=F′(x)=e−(x−μ)...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

二哥不像程序员 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。