CS229学习笔记之分类问题与逻辑回归

最新推荐文章于 2024-09-20 09:44:43 发布

xxwywzy

最新推荐文章于 2024-09-20 09:44:43 发布

阅读量264

点赞数

分类专栏：机器学习-CS229 文章标签：机器学习斯坦福大学 CS229 逻辑回归

本文链接：https://blog.csdn.net/u012946504/article/details/78786251

版权

机器学习-CS229 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

系列第三篇~

之前我们讨论的是回归问题，即输出是连续值，现在我们来讨论输出是离散值的分类问题。首先，我们专注于二元分类问题，即输出 $y$ 只能取 $0$ 和 $1$ 两个值。

逻辑回归

如果将线性回归模型直接应用于分类问题，会产生取值不在 0 和 1 之间的问题，所以我们引入逻辑回归模型：

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_{\theta}(x) = g(\theta^Tx) = \frac 1 {1+e^{-\theta^Tx}}$
其中

g (z) = 1 1 + e - z

$g(z) = \frac 1 {1+e^{-z}}$
被称为 逻辑函数或 S 型函数，其图像如下：

![Alt text|center|300*0](./屏幕快照 2017-05-14 下午9.34.26.png)

可以看到，当 $z \to +\infty$ 时 $g(z)$ 趋向于 $1$ ，当 $z \to -\infty$ 时 $g(z)$ 趋向于 $0$ ，即 $g(z)$ 的值域为 $(0,1)$ ，至于为什么要选择这个函数，在之后会作出解释。

首先给出一个关于 S 型函数求导的有用性质：

g' (z) = d d z 1 1 + e - z = 1 ( 1 + e - z ) 2 (e - z) = 1 1 + e - z \cdot (1 - 1 1 + e - z) = g (z) (1 - g (z))

$\begin{align*} g\prime (z) &= \frac d {dz} \frac 1 {1+e^{-z}} \\ &= \frac 1 {(1+e^{-z})^2} (e^{-z}) \\ &= \frac 1 {1+e^{-z}} \cdot \left( 1- \frac 1 {1+e^{-z}}\right) \\ &= g(z)(1-g(z)) \end{align*}$
确定了模型之后，我们需要找到合适的

θ $\theta$ 的值。这里采用之前使用的 最大似然法来选择参数。（假设函数可以直接看作概率分布）

首先，二元分类符合伯努利分布，我们假设：

P (y = 1 ∣ x; θ) P (y = 0 ∣ x; θ) = h θ (x) = 1 - h θ (x)

$\begin{align*} P(y=1 \mid x ;\theta) &= h_{\theta}(x)\\ P(y=0 \mid x ;\theta) &= 1-h_{\theta}(x) \end{align*}$
将上面的公式合二为一，得到：

P (y ∣ x; θ) = (h θ (x)) y (1 - h θ (x)) 1 - y

$P(y \mid x ; \theta) = (h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y}$
假定

m $m$ 个样本之间相互独立，我们可以得到

θ $\theta$ 的似然函数如下：

L (θ) = p (y ⃗ ∣ X; θ) = \prod i = 1 m p (y (i) ∣ x (i); θ) = \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

$\begin{align*} L(\theta) &= p(\vec y \mid X; \theta) \\ &= \prod_{i=1}^m p(y^{(i)} \mid x^{(i)};\theta) \\ &= \prod_{i=1}^m \left(h_{\theta}(x^{(i)})\right)^{y^{(i)}}\left(1-h_{\theta}(x^{(i)})\right)^{1-y^{(i)} } \end{align*}$
与之前类似，为了计算方便，我们使用对数似然函数来进行最大化分析：

ℓ (θ) = log L (θ) = \sum i = 1 m y (i) log h (x (i)) + (1 - y (i)) log (1 - h (x (i)))

$\begin{align*} \ell(\theta) &= \log L(\theta) \\ &= \sum_{i=1}^m y^{(i)}\log h(x^{(i)})+(1-y^{(i)} )\log (1-h(x^{(i)})) \end{align*}$
下面要做的是找到

θ $\theta$ 使得

ℓ(θ) $\ell(θ)$ 最大，由于这里是找最大值而非最小值，所以使用 梯度上升（gradient ascent），更新规则是

θ:=θ+α∇θℓ(θ) $\theta := \theta +\alpha \nabla_\theta \ell(\theta)$ ，对于随机梯度上升（每次只考虑一个样本），求导过程如下：

\partial \partial θ j ℓ (θ) = (y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )) \partial \partial θ j g (θ T x) = (y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )) g (θ T x) (1 - g (θ T x)) \partial \partial θ j θ T x = (y (1 - g (θ T x)) - (1 - y) g (θ T x)) x j = (y - h θ (x)) x j

$\begin{align*} \frac{\partial}{\partial \theta_j}\ell(\theta) &= \left(y \frac 1 {g(\theta^Tx)}-(1-y)\frac 1 {1-g(\theta^Tx)}\right)\frac{\partial}{\partial \theta_j}g(\theta^Tx)\\ &= \left(y \frac 1 {g(\theta^Tx)}-(1-y)\frac 1 {1-g(\theta^Tx)}\right)g(\theta^Tx)(1-g(\theta^Tx))\frac{\partial}{\partial \theta_j}\theta^Tx \\ &= \left(y(1-g(\theta^Tx))-(1-y)g(\theta^Tx)\right)x_j\\ &= \left(y-h_\theta(x)\right)x_j \end{align*}$

在计算过程中使用到了 S 型函数的求导性质。综上所述，我们得到随机梯度上升的更新规则是：

θ j : = θ j + α (y (i) - h θ (x (i))) x (i) j

$\theta_j := \theta_j +\alpha\left(y^{(i)}-h_\theta(x^{(i)})\right)x^{(i)}_j$

这个公式和线性回归中梯度下降的公式表面上看是一样的，但实际上两者的 $h_\theta(x)$ 有所不同。关于更加深层次的讨论，请参看之后的 GLM 模型章节。

感知器学习算法

这里谈感知器，好像有些离题，但感知机的函数定义如下：

g (z) = {1 if z \geq 0 0 if z < 0

$g(z)=\left\{ \begin{align*} & 1 \quad \text{if} \;\text{z} \ge 0\\ & 0 \quad \text{if} \;\text{z} < 0 \end{align*} \right.$
可以看到它是逻辑回归的s型函数的简化形式，逻辑函数是连续的在 [0,1] 区间上，而感知器直接非0则1。如果我们令