手推Logistic Regression及matlab的底层实现

最新推荐文章于 2024-03-21 13:12:15 发布

ZEERO~

最新推荐文章于 2024-03-21 13:12:15 发布

阅读量768

点赞数

分类专栏：机器学习文章标签： matlab 回归机器学习

本文链接：https://blog.csdn.net/weixin_43249038/article/details/121212711

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

前言

Logistic Regression，也称为LR，逻辑斯蒂回归。虽然名称中有回归二字，但实际上是一种二分类算法。注意，适用范围仅仅是二分类。

公式推导

假设数据集 $x^{1},x^{2},...,x^{n}$ ，分别属于类别 ${C_{1},C_{2}}$ ，将类别C1对应标签1，类别C2对应标签0。

$f_{w,b}(x)=P_{w,b}(C_{1}|x)$ 表示给定w,b时，x属于类别 $C_{1}$ 的概率。

$\sigma(z)=\frac{1}{1+e^{-z}}$ 为sigmoid函数。则 $f_{w,b} (x)=\sigma(\sum_{i}w_{i}x_{i}+b)$ 为所用的LR模型，其值介于0-1之间。

对数据集适用最大似然估计，假设 $L (w, b)$ 为最大似然函数， $w^{*},b^{*}$ 为模型所求参数。则求解目标为
$\overset{arg maxL(w,b)}{w,b}=arg min (-L(w,b))=w^{*},b^{*}$
最优化问题一般都转化为最小值问题求解。
$L(w,b)=-ln[(y^{1}f(x^{1})+(1-y^{1})(1-f(x^{1}))...(y^{n}f(x^{n})+(1-y^{n})(1-f(x^{n}))]\\ =\sum_{n}-[y^{n}lnf(x^{n})+(1-y^{n})ln(1-f(x^{n}))]$

这里的公式如何来的呢？我们可以想下我们适用LR进行分类的目的是什么，希望分类过程中，标签为1的样本预测概率f(x)越接近1越好，标签为0的样本预测概率f(x)越接近0越好。

公式求解

求解 $w^{*}与b^{*}$ 时，我们可以将目标函数对 $w_{i}$ 进行求导。
我们先计算：
$\frac{\partial lnf(x)}{\partial w_{i}}=\frac{\partial lnf(x)}{\partial z} \frac{\partial z}{\partial w_{i}}$
由于 $z=\sum w_{i}x_{i}+b$ ，可以得到 $\frac{\partial z}{\partial w_{i}}=x_{i}$
而
$\frac{\partial ln \sigma(z)}{\partial z}=\frac{1}{\sigma (z)}\frac{\partial \sigma(z)}{\partial z}=\frac{1}{\sigma (z)}{\sigma (z)}(1-{\sigma (z)})=1-{\sigma (z)}$
这里用到的一个知识是sigma函数的导数。
$\frac{\partial \sigma(z)}{\partial z}=-(1+e^{-z})^{-2}(-e^{-z})=\frac{1}{1+e^{-z}}\frac{e^{-z}}{1+e^{-z}}=\sigma(z)(1-\sigma(z))$
因此可以得到，
$\frac{\partial lnf(x)}{\partial w_{i}}=(1-{\sigma (z)})x_{i}$
再计算
$\frac{\partial ln(1-f(x))}{\partial w_{i}}=\frac{\partial ln(1-f(x))}{\partial z}\frac{\partial z}{\partial w_{i}}$
$\frac{\partial ln(1-f(x))}{\partial z}=-\frac{1}{1-\sigma(z)}\sigma(z)[1-\sigma(z)]=-\sigma(z)$
可得到
$\frac{\partial ln(1-f(x))}{\partial w_{i}}=-\sigma(z)x_{i}$
最后可计算出
$\frac{-lnL(w,b)}{\sigma(w_{i})}=$