【学习笔记】斯坦福大学公开课（机器学习）之逻辑斯蒂回归-CSDN博客

本文链接：https://blog.csdn.net/li_ximin/article/details/69551202

如果在遇到一些分类问题，用回归算法来做预测时，我们会发现这些算法得出的模型会不尽人意。甚至在一些很明显的情况下，函数值不会比1大或者比0小，即目标值 $y\in\{0,1\}$ 。
针对这种情况，我们改变假设函数 $h_{\theta}(x)$ ，把假设函数写成如下模型：

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$
其中

g (z) = 1 1 + e - z

$g(z)=\frac{1}{1+e^{-z}}$
被称为逻辑斯蒂函数。这个函数作图如下：

从图形可以看出，当自变量

z $z$ 趋于无穷大时，函数值趋近1，反之，当自变量

z $z$ 趋于无穷小时，函数值趋于0。所以函数值是一直在0和1之间徘徊。
再介绍一个逻辑斯蒂函数导数的性质。

g' (z) = d d z 1 1 + e - z = 1 ( 1 + e - z ) 2 (e - z) = 1 1 + e - z * (1 - 1 ( 1 + e - z )) = g (z) (1 - g (z))

$\begin{align}g'(z)&=\frac{d}{dz}\frac{1}{1+e^{-z}}\\ &=\frac{1}{(1+e^{-z})^2}(e^{-z})\\ &=\frac{1}{1+e^{-z}}*(1-\frac{1}{(1+e^{-z})})\\ &=g(z)(1-g(z)) \end{align}$
我们得到了逻辑斯蒂函数模型，我们如何来求

θ $\theta$ ？跟之前的推导一样，我们用最大似然估计来求导

θ $\theta$ 的值。
我们设定

P (y = 1 | x; θ) P (y = 0 | x; θ) = = h θ (x) 1 - h θ x

$\begin{align} &P(y=1|x;\theta)&=&h_{\theta}(x)\\ &P(y=0|x;\theta)&=&1-h_{\theta}{x} \end{align}$
这两个式子可以写成更简洁的形式：

p (y | x; θ) = (h θ (x)) y (1 - h θ (x)) 1 - y

$p(y|x;\theta)=(h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y}$
我们假设有m个样本，他们之间都是独立的，我们就可以把最大似然函数写为如下：

L (θ) = p (y ⃗ | X; θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

$\begin{align} L(\theta)&=p(\vec{y}|X;\theta)\\ &=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta)\\ &=\prod_{i=1}^{m}(h_{\theta}(x^{(i)}))^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}} \end{align}$
我们为了方便求得最大似然值，我们对这个式子求对数：

l (θ) = l o g L (θ) = \sum i = 1 m y (i) l o g h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i)))

$\begin{align} l(\theta)&=logL(\theta)\\ &=\sum_{i=1}^{m}y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)})) \end{align}$
我们怎样才能得到最大值，我们用 梯度上升的方法，对参数

θ $\theta$ 进行迭代，使得值达到最大，即

θ:=θ+α∇θl(θ) $\theta:=\theta+\alpha∇_{\theta}l(\theta)$ ，其中

α $\alpha$ 是学习率。
接下来，我们需要求

l(θ) $l(\theta)$ 的梯度：

\partial \partial θ j l (θ) = (y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )) \partial \partial θ j g (θ T x) = (y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )) g (θ T x) (1 - g (θ T x)) \partial \partial θ j θ T x = (y (1 - g (θ T x)) - (1 - y) g (θ T x)) x j = (y - h θ (x)) x j

$\begin{align} \frac{∂}{∂\theta_{j}}l(\theta)&=(y\frac{1}{g(\theta^Tx)}-(1-y)\frac{1}{1-g(\theta^Tx)})\frac{∂}{∂\theta_{j}}g(\theta^Tx)\\ &=(y\frac{1}{g(\theta^Tx)}-(1-y)\frac{1}{1-g(\theta^Tx)})g(\theta^Tx)(1-g(\theta^Tx))\frac{∂}{∂\theta_{j}}\theta^Tx\\ &=(y(1-g(\theta^Tx))-(1-y)g(\theta^Tx))x_{j}\\ &=(y-h_{\theta}(x))x_{j} \end{align}$
上面的推导过程运用了逻辑斯蒂回归求导公式，