分类和逻辑回归(Classification and logistic regression)

最新推荐文章于 2024-07-27 10:38:25 发布

y小川

最新推荐文章于 2024-07-27 10:38:25 发布

阅读量1.4k

点赞数

分类专栏： machine-learning 文章标签：逻辑回归分类算法梯度上升算法垃圾邮件分类

machine-learning 专栏收录该内容

34 篇文章 6 订阅

订阅专栏

这一章将主要讨论分类问题，相比于回归问题，分类问题的预测值 $y$ 并非连续的数，而是一些离散的数值。现在我们会集中在二项分类问题（即只有0和1两个值），二项问题中的结论大部分都可以推广到多类问题中。比如，我们要构造一个垃圾邮件分类器， $x^{(i)}$ 表示电子邮件的一些特征， $y = 1$ 代表垃圾邮件， $y=0$ 则不是。

5 逻辑回归

如果解决分类问题时先忽略 $y$ 是离散值得限定，用老的线性回归方法去拟合曲线就会发现构造的模型表现很差。直观来说，当我们知道 $y \in \{0,1\}$ 时，假设函数 $h_\theta(x)$ 预测超过1或小于0的情况，都是没有意义的。

为了达到这个目标，我们需要变换 $h_\theta(x)$ 的形式：

h θ (x) = g (θ T x) = 1 1 + e - θ T x,

$h_\theta(x) = g(\theta^T x) = \frac{1}{1 + e^{- \theta^T x}},$

其中：

g (z) = 1 1 + e - z

$g(z) = \frac{1}{1 + e^{-z}}$

被称为逻辑函数或sigmoid函数，下面是一个逻辑函数的曲线图：
sigmoid function

逻辑函数的值域就在(0,1)之间，除此以外逻辑函数还有一个很优秀的性质就是方便求导：

g' (z) = d d z 1 1 + e - z = 1 ( 1 + e - z ) 2 (e - z) = 1 ( 1 + e - z ) \cdot (1 - 1 ( 1 + e - z )) = g (z) (1 - g (z)) .

$\begin{align} g'(z) &= \frac{d}{dz}\ \frac{1}{1 + e^{-z} } \\ &= \frac{1}{(1 + e^{-z})^2 }(e^{-z}) \\ &= \frac{1}{(1 + e^{-z})} \cdot \left( 1 - \frac{1}{(1 + e^{-z})} \right) \\ &= g(z)(1 - g(z)). \\ \end{align}$

对当前的回归模型，我们应该如何选择参数 $\theta$ 呢？接下来我们会证明在一系列概率假设后，最小方差回归会是这个模型的极大似然估计量。

我们不妨先假设，输出y为0或1的概率分别是：

P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x)

$\begin{align} &P(y=1|x;\theta) = h_\theta(x) \\ &P(y=0|x;\theta) = 1 - h_\theta(x) \\ \end{align}$

则y的概率密度公式可写为：

p (y | x; θ) = (h θ (x)) y (1 - h θ (x)) 1 - y

$p(y|x;\theta) = (h_\theta(x))^y(1 - h_\theta(x))^{1-y}$

假设m个样本是独立生成的，我们可以写下它们的似然函数：

L (θ) = p (y ⃗ | X; θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

$\begin{align} L(\theta) &= p(\vec{y}|X;\theta) \\ &= \prod_{i=1}^m p(y^{(i)} | x^{(i)};\theta) \\ &= \prod_{i=1}^m (h_\theta(x^{(i)}))^{y^{(i)}} (1 - h_\theta(x^{(i)}))^{1-y^{(i)}} \end{align}$

再化简为对数似然函数：

ℓ (θ) = log L (θ) = \sum i = 1 m y (i) log h (x (i)) + (1 - y (i)) log (1 - h (x (i)))

$\begin{align} \ell(\theta) &= \text{log} L(\theta) \\ &= \sum_{i=1}^m \ y^{(i)} \text{log}\ h(x^{(i)}) + (1 - y^{(i)}) \text{log} (1 - h(x^{(i)}))\\ \end{align}$

我们应该如何求解极大似然？和之前的线性回归类似，我们可以使用梯度上升法。用向量标记表示我们每一步的更新： $\theta := \theta + \alpha \nabla_\theta \ell(\theta)$ 。我们先计算对数似然函数的梯度：

\partial \partial θ j ℓ (θ) = (y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )) \partial \partial θ j g (θ T x) = (y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )) g (θ T x) (1 - g (θ T x)) \partial \partial θ j θ T x = (y (1 - g (θ T x)) - (1 - y) g (θ T x)) x j = (y - h θ (x)) x j

$\begin{align} \frac{\partial}{\partial \theta_j} \ell(\theta) &= \left( y \frac{1}{g(\theta^T x)} - (1 -y)\frac{1}{1 - g(\theta^T x)} \right) \frac{\partial}{\partial \theta_j} g(\theta^T x) \\ &= \left( y \frac{1}{g(\theta^T x)} - (1 -y)\frac{1}{1 - g(\theta^T x)} \right) g(\theta^T x)(1 - g(\theta^T x)) \frac{\partial}{\partial \theta_j} \theta^T x \\ &= (y(1 - g(\theta^T x)) - (1 -y)g(\theta^T x))x_j \\ &= (y - h_\theta(x))x_j \end{align}$

上面的推导中用到了 $g'(z) = g(z)(1 - g(z))$ 这一结论。那我们的随机梯度上升法：