吴恩达老师机器学习课程笔记 06 逻辑回归

最新推荐文章于 2024-05-20 12:59:53 发布

w18727139695

最新推荐文章于 2024-05-20 12:59:53 发布

阅读量188

点赞数

分类专栏： ML：吴恩达老师机器学习课程笔记文章标签：机器学习

本文链接：https://blog.csdn.net/w18727139695/article/details/126049017

版权

ML：吴恩达老师机器学习课程笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

6 逻辑回归

6.1 分类问题

在分类问题中，要预测的变量 $y$ 是离散的值。

二分类问题

对于要预测的变量可能属于的两个类，将这两个类分别称为负类和正类，负类用0表示，正类用1表示。两个类哪个是正类或负类是任意的，但往往用负类表示没有某样东西，用正类表示有某样东西。

多分类问题

对于要预测的变量可能属于的多个类， $y$ 可以从 ${0,1,2,3...}$ 中选择。

在后续讨论中先研究二分类问题。

逻辑回归算法

逻辑回归算法的特点是输出值永远介于0到1之间。
虽然逻辑回归算法的名字中出现了“回归”，但逻辑回归算法是一种分类算法，它适用于标签为离散0或1的情况。

总结

二分类问题就是要预测的变量可能属于的两个类，多分类问题就是要预测的变量可能属于的多个类，从 ${0,1,2,3...}$ 中选择。

逻辑回归算法是输出值永远介于0到1之间的分类算法。

6.2 假设函数

sigmoid函数（logistics函数）

$g(z)=\frac{1}{1+e^{-z}}$ 被称为sigmoid函数或logistics函数，逻辑回归的名字就是来源于此。

逻辑回归模型

线性回归中，假设函数的形式为： $h_{\theta}(x)=\theta^Tx$ ，而在逻辑回归的假设函数的形式为： $h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$ 。

模型解释

假设函数 $h_{\theta}(x)$ 输出的意义是对于一个 $x$ ， $y = 1$ 的概率估计，即 $h_{\theta}(x)=P(y=1\mid x;\theta)$ 。同时 $\mid x ; \theta)=1-P(y=1 \mid x ; \theta)$ 。

总结

逻辑回归的假设函数的形式为： $h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$ 。

函数 $h_{\theta}(x)$ 输出的意义是 $y = 1$ 的概率。

6.3 决策边界

根据假设函数输出值的含义，因此要想预测 $y$ 的值是0还是1，可以令当 $h_{\theta}(x)\ge0.5$ 时，预测 $y = 1$ ，当 $h_{\theta}(x)<0.5$ 时，预测 $y = 0$ 。

而根据sigmoid函数曲线图可以看出， $z = 0$ 时 $g (z) = 0.5$ ； $z > 0$ 时 $g (z) > 0.5$ ； $z < 0$ 时 $g (z) < 0.5$ 。

又因为 $z=\theta^{T}x$ ，所以 $\theta^{T} x\ge0$ 时，预测 $y = 1$ ； $\theta^{T} x<0$ 时，预测 $y = 0$ 。

$\theta^{T}x=0$ 的这条线将平面（空间）分为了两个部分，其中一部分预测 $y = 1$ ，另一部分预测 $y = 0$ ，这条线就是决策边界。

需要说明的是决策边界不是训练集的属性，而是假设函数本身及其参数的属性。不是用训练集来定义决策边界，而是用训练集来拟合参数。

总结

$\theta^{T}x=0$ 的这条线就是决策边界。

6.4 代价函数

代价函数

如果在逻辑回归中继续使用线性回归的代价函数，则会使得代价函数是参数 $\theta$ 的非凸函数。（因为 $h (x)$ 是非线性的sigmoid函数。）所以将梯度下降法用在这样的函数上，不能保证收敛到全局最小值。

重新定义逻辑回归的代价函数为： $J(\theta)=\frac{1}{m} \sum_{i=1}^{m} \operatorname{Cost}\left(h_{\theta}\left(x^{(i)}\right), y^{(i)}\right)$ ，其中
$\operatorname{Cost}\left(h_{\theta}(x), y\right)=\left\{\begin{aligned} -\log \left(h_{\theta}(x)\right) & \text { if } y=1 \\ -\log \left(1-h_{\theta}(x)\right) & \text { if } y=0 \end{aligned}\right.$
这样的代价函数是凸函数。

总结

为了使代价函数是凸函数，本节重新构造了逻辑回归的损失函数。

6.5 简化的代价函数和梯度下降

简化的代价函数

可以将代价函数的两个分表达式合并为： $\operatorname{Cost}\left(h_{\theta}(x), y\right)=-y \times \log \left(h_{\theta}(x)\right)-(1-y) \times \log \left(1-h_{\theta}(x)\right)$
$J(\theta)=\frac{1}{m} \sum_{i=1}^{m} \operatorname{Cost}\left(h_{\theta}\left(x^{(i)}\right), y^{(i)}\right)=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right]$

梯度下降

对逻辑回归的代价函数使用梯度下降法每次的更新过程为： $\theta_{j}:=\theta_{j}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$ 。

和线性回归类似，在对逻辑回归的代价函数使用梯度下降法时，采用特征缩放的方法，使得梯度下降收敛得更快。

总结

逻辑回归的代价函数为 $J(\theta)=\frac{1}{m} \sum_{i=1}^{m} \operatorname{Cost}\left(h_{\theta}\left(x^{(i)}\right), y^{(i)}\right)=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right]$ ，梯度下降法的更新过程为 $\theta_{j}:=\theta_{j}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$ 。

6.6 高级优化

除了梯度下降法之外，还有一些优化代价函数的高级方法，如共轭梯度法BFGS（变尺度法）和L-BFGS（限制变尺度法）。

6.7 多类别分类：一对多

多分类问题

比如可能想要区分哪些天是晴天、多云、雨天、或者下雪天，这就是多分类问题。

一对多

已知如何利用逻辑回归的方法解决二分类问题，利用“一对多”的原理，可以将这种方法用于多分类的问题上，把多分类问题转化为若干个独立的二分类问题。

首先将多个类中的一个类标标记为正向类（ $y = 1$ ），然后将其他所有类都标记为负向类，并使用逻辑回归的方法得到模型 $h_{\theta}^{(i)}(x)$ 。然后同理对其他所有类别进行相同的处理，可以得到一系列的模型。最后，当需要做预测时，将所有的分类器都运行一遍，然后对每一个输入变量，都选择最高可能性的输出变量。