logistic regression 逻辑回归

最新推荐文章于 2022-11-12 16:30:42 发布

chi_wawa

最新推荐文章于 2022-11-12 16:30:42 发布

阅读量617

点赞数 1

分类专栏：机器学习 python 文章标签：逻辑回归机器学习 python

本文链接：https://blog.csdn.net/Chi_wawa/article/details/78028255

版权

机器学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

python

5 篇文章 1 订阅

订阅专栏

数学推导

对于二分类问题 $y \in \left\{ {0,1} \right\}$ ，对于分类边界线进行拟合操作

样本集(m,n)　即m个样本，每个样本的维度为n
边界线拟合直线 $y = {w_0}{x_0} + {w_1}{x_1} + ... + {w_n}{x_n} = {w^T}x$ ，其中，w是系数向量，x是某个样本
将Sigmoid函数 $g(z) = \frac{1}{{1 + {e^{ - z}}}}$ 作用于y，得到的结果介于(0,1)之间，并且g(z)是单调增函数，当z=0时，g(z)=0.5

令 ${u_i} = g({w^T}{x^i}) = p({y_i} = 1|{x^i})$ ，其中 ${x^i}$ 是样本集中的第i个样本， ${y_i}$ 是该样本的类别，该式表示将 $g({w^T}{x^i})$ 作为 ${x^i}$ 类别为1的概率，那么

$p({x^i}) = {u_i}^{{y_i}}{(1 - {u_i})^{1 - {y_i}}}$

似然函数为
$L = \prod\limits_{i = 1}^m {{u_i}^{{y_i}}{{(1 - {u_i})}^{1 - {y_i}}}}$

对数似然 log likelihood 为
$\log L = \sum\limits_{i = 1}^m {{y_i}\log {u_i} + (1 - {y_i})\log (1 - {u_i})}$

考虑最大似然估计的方法，最优的参数w使得对数似然最大，因此对 $\log L$ 针对w求导，令导数为0，即可求得 $\log L$ 取得极值时候的最优的w。但是，这里的w是维度很大的向量，采用最大似然估计无法得到解析解，因此，考虑使用梯度上升法。

$\frac{{\partial g(z)}}{{\partial z}} = g(z)(1 - g(z))$

$\frac{{\partial {u_i}}}{{\partial w}} = \frac{{\partial g({w^T}{x^i})}}{{\partial w}} = {x^i}$

$\frac{{\partial \log L}}{{\partial w}} = \sum\limits_{i = 1}^m {{y_i}*\frac{1}{{{u_i}}}} *\frac{{\partial {u_i}}}{{\partial w}} + (1 - {y_i})*\frac{1}{{1 - {u_i}}}*( - 1)*\frac{{\partial {u_i}}}{{\partial w}}$

因为 ${u_i} = g(z_i)=g({w^T}{x^i})$ ，则上式可以转换为

[

\partial log L \partial w = \sum i = 1 m y i * 1 g ( z i ) * \partial g ( z i ) \partial z i * \partial z i \partial w + (1 - y i) * 1 1 - g ( z i ) * (- 1) * \partial g ( z i ) \partial z i * \partial z i \partial w = \sum i = 1 m y i * 1 g ( z i ) * g (z i) * (1 - g (z i)) * x i + (1 - y i) * 1 1 - g ( z i ) * (- 1) * g (z i) (1 - g (z i)) * x i = \sum i = 1 m y i * (1 - g (z i)) * x i + (y i - 1) * g (z i) * x i = \sum i = 1 m [y i - g (z i)] * x i

$\begin{array}{l} \frac{{\partial \log L}}{{\partial w}} = \sum\limits_{i = 1}^m {{y_i}*\frac{1}{{g({z_i})}}} *\frac{{\partial g({z_i})}}{{\partial {z_i}}}*\frac{{\partial {z_i}}}{{\partial w}} + (1 - {y_i})*\frac{1}{{1 - g({z_i})}}*( - 1)*\frac{{\partial g({z_i})}}{{\partial {z_i}}}*\frac{{\partial {z_i}}}{{\partial w}}\\ = \sum\limits_{i = 1}^m {{y_i}*\frac{1}{{g({z_i})}}} *g({z_i})*(1 - g({z_i}))*{x^i} + (1 - {y_i})*\frac{1}{{1 - g({z_i})}}*( - 1)*g({z_i})(1 - g({z_i}))*{x^i}\\ = \sum\limits_{i = 1}^m {{y_i}*(1 - g({z_i}))*{x^i} + ({y_i} - 1)*g({z_i})*{x^i}} \\ = \sum\limits_{i = 1}^m {[{y_i} - g({z_i})]*{x^i}} \end{array}$ ]

上式结果即为对数似然相对于w的梯度，接下来可以采用梯度上升或者随机梯度上升的方法来求解最优的w。