第三周-Coursera/Stanford机器学习课程学习笔记-逻辑回归&概率解释以及正则化

最新推荐文章于 2020-10-16 18:35:40 发布

流丫梦

最新推荐文章于 2020-10-16 18:35:40 发布

阅读量1.3k

点赞数

分类专栏：机器学习学习笔记人工智能文章标签：机器学习逻辑回归正则化 Coursera Andrew-Ng

本文链接：https://blog.csdn.net/mengzilym/article/details/51442906

版权

机器学习同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

学习笔记

3 篇文章 0 订阅

订阅专栏

人工智能

3 篇文章 0 订阅

订阅专栏

这一周的课程包括了逻辑回归（Logistic Regression）以及线性回归和逻辑回归损失函数的正则化。

逻辑回归

逻辑回归解决的是分类问题，通过回归得到的是一个分类器（classifier）。不过令人奇怪的是，既然是分类问题，为什么还要用回归来命名这种方法？模糊地记得Ng说是历史原因……

假设函数

分类问题可分为二元分类和多类分类，以二元分类为基础进行讨论，多类分类问题可在此基础上通过one vs all得到多个分类器进而得到解决。
对于二元分类问题，输出 $y \in \{0, 1\}$ 或者 $y \in \{-1, 1\}$ 。相对应的假设函数分别为：

h θ (x) = s i g m o i d (θ T x) = 1 1 + e - θ T x (1)

$h_\theta (x) = sigmoid (\theta^T x) = \frac{1} {1+e^{-\theta^T x}} \tag 1$

或者：

h θ (x) = t a n h (θ T x) = e θ T x - e - θ T x e θ T x + e - θ T x (2)

$h_\theta(x)=tanh (\theta^T x) = \frac {e^{\theta^T x}-e^{-\theta^T x}}{e^{\theta^T x}+e^{-\theta^T x}} \tag 2$
tanh函数图像

这里我们让

y∈{0,1} $y \in \{0, 1\}$ ，假设函数为

sigmoid $sigmoid$ 函数。则有：

{h θ (x) \to 1, h θ (x) \to 0, θ T x ≫ 0 θ T x ≪ 0 (3)

$\begin{cases} h_\theta(x) \rightarrow 1, & \theta^T x \gg 0 \\ h_\theta(x) \rightarrow 0, & \theta^T x \ll 0 \end{cases} \tag 3$

损失函数

先给出最终的损失函数 $J(\theta)$ ：

J (θ) = - 1 m \sum i = 1 m (y (i) l o g (h θ (x) (i)) + (1 - y (i)) (l o g (1 - h θ (x) (i)))) (4)

$J(\theta) = - \frac {1} {m} \sum_{i=1}^m \left(y^{(i)} log(h_\theta(x)^{(i)}) + (1-y^{(i)}) (log(1-h_\theta(x)^{(i)})) \right) \tag 4$
推导：
假设只有一个样本。由于假设函数

hθ(x)∈(0,1) $h_\theta(x) \in (0, 1)$ ，又有公式3所示的条件，则有：

{J (θ) = - l o g (h θ (x)), J (θ) = - l o g (1 - h θ (x)), y = 1 y = 0 (5)

$\begin{cases} J(\theta) = -log(h_\theta(x)), & y=1 \\ J(\theta) = -log(1-h_\theta(x)), & y=0 \end{cases} \tag 5$
下图为

y=1 $y=1$ 和

y=0 $y=0$ 两种情况下的

J(θ) $J(\theta)$ 对

hθ(x) $h_\theta(x)$ 的函数图像。

将公式5合并化简并运用到多个样本值就得到了公式4。

损失函数的概率解释

这部分内容参考了这篇文章。
在线性回归中，采用最小二乘法计算其损失函数还比较容易理解， $\sum_{i=1} ^{m} (h_\theta(x^{(i)}) - y^{(i)}) ^2$ 也比较直观。而在逻辑回归中，为什么采用自然对数来计算“损失”呢？
首先，在逻辑回归中，假设每一个样本事件符合伯努利分布，那么针对每一个样本，均有：

{P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x) (6)

$\begin{cases} P(y=1|x;\theta) = h_\theta(x) \\ P(y=0|x;\theta) = 1-h_\theta(x) \end{cases} \tag 6$
即：

P (y | x; θ) = (h θ (x)) y (1 - h θ (x)) (1 - y) (7)

$P(y|x;\theta) = (h_\theta(x))^y (1-h_\theta(x))^{(1-y)} \tag 7$
由此可得到 似然函数：

L (θ) = p (y ⃗ | X; θ) = \prod i = 1 m ((h θ (x (i))) y (i) (1 - h θ (x (i))) (1 - y (i))) (8)

$\begin{align} L(\theta) & =p(\vec{y}|X;\theta) \\ & = \prod_{i=1}^{m} \left( (h_\theta(x^{(i)}))^{y^{(i)}} (1-h_\theta(x^{(i)}))^{(1-y^{(i)})} \right) \end{align} \tag 8$
接着进行最大似然估计，由于（来自维基百科）：

最大化一个似然函数同最大化它的自然对数是等价的。

因此可将似然函数变换为：

l (θ) = \sum i = 1 m (y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))) (9)

$l(\theta) = \sum_{i=1}^{m} \left( y^{(i)} log(h_\theta(x^{(i)}))+(1-y^{(i)}) log(1-h_\theta(x^{(i)})) \right) \tag 9$
到了这里便很明显了，似然函数和前面的损失函数简直就是一样一样的嘛。不过还有一个问题， 为什么用 $sigmoid(\theta^T x)$ 表示 $P(y=1|x;\theta)$ 呢？感觉这里面完全没有什么道理可言，想不明白……

计算最优解

首先计算损失函数对 $\theta$ 的偏导数，简要推导过程如下（ $sigmoid$ 函数求导为： $g'(a)=g(a)(1-g(a))$ ）：

\partial J ( θ ) \partial θ j = \partial \partial θ j (- 1 m \sum i = 1 m (y (i) l o g (h θ (x (i))) + (1 - y (i)) (l o g (1 - h θ (x (i)))))) = - 1 m \sum i = 1 m (y (i) 1 h θ ( x ( i ) ) h θ (x (i)) (1 - h θ (x (i))) \partial ( θ T x ) \partial θ j - (1 - y (i)) 1 1 - h θ ( x ( i ) ) h θ (x (i)) (1 - h θ (x (i))) \partial ( θ T x ) \partial θ j) = - 1 m \sum i = 1 m (y (i) - h θ (x (i))) \partial ( θ T x ) \partial θ j = - 1 m \sum i = 1 m (y (i) - h θ (x (i))) x j (10)

$\begin{align} & \frac {\partial J(\theta)} {\partial \theta_j} = \frac {\partial} {\partial \theta_j} \left( - \frac {1} {m} \sum_{i=1}^m \left(y^{(i)} log(h_\theta(x^{(i)})) + (1-y^{(i)}) (log(1-h_\theta(x^{(i)}))) \right) \right) \\ & = - \frac {1} {m} \sum_{i=1}^{m} \left( y^{(i)} \frac {1} {h_\theta(x^{(i)})} h_\theta(x^{(i)}) (1-h_\theta(x^{(i)})) \frac {\partial(\theta^Tx)}{\partial\theta_j}-(1-y^{(i)}) \frac {1}{1-h_\theta(x^{(i)})} h_\theta(x^{(i)}) (1-h_\theta(x^{(i)})) \frac {\partial(\theta^Tx)}{\partial\theta_j}\right) \\ & = - \frac {1} {m} \sum_{i=1}^{m} \left( y_{(i)} - h_\theta(x^{(i)}) \right) \frac {\partial(\theta^Tx)}{\partial\theta_j} \\ & = - \frac {1} {m} \sum_{i=1}^{m} ( y_{(i)} - h_\theta(x^{(i)} ))x_j \end{align} \tag {10}$
到这已知

J(θ) $J(\theta)$ 和

∂J(θ)∂θj $\frac {\partial J(\theta)} {\partial \theta_j}$ ，由于逻辑回归可能存在局部最小值，因此使用梯度下降法并不合适，这里采用高级优化算法，比如MATLAB自带的优化函数fminunc。优化得到使损失函数最小化的

θ $\theta$ 。

正则化

这里正则化（Rgularization）和常说的归一化（Normalization）和标准化（Standardization）容易混淆，注意区分，另外在不同学科领域中，正则化也有不同的解释。在机器学习中，如果样本太小或者模型过于复杂，容易出现过拟合（overfitting）的现象。对损失函数进行正则化就是一种可以有效避免过拟合的方法。
正则化的方法对于线性回归和逻辑回归来说都一样，都是在损失函数添加一项关于 $\theta$ 的分项：