吴恩达机器学习（三）—— Logisitic回归

最新推荐文章于 2023-12-04 21:54:21 发布

青春是首不老歌丶

最新推荐文章于 2023-12-04 21:54:21 发布

阅读量4k

点赞数 10

分类专栏：吴恩达《机器学习》

原文链接：https://blog.csdn.net/HUAI_BI_TONG/article/details/108393493

版权

吴恩达《机器学习》专栏收录该内容

17 篇文章 119 订阅

订阅专栏

文章目录

Logistic回归是一种广义的线性回归分析模型。它是一种分类方法，可以适用于二分类问题，也可以适用于多分类问题，但是二分类的更为常用，也更加容易解释。实际中最为常用的就是二分类的logistic回归，常用于数据挖掘，疾病自动诊断，经济预测等领域。

用于两分类问题。其基本思想为：
a. 寻找合适的假设函数，即分类函数，用以预测输入数据的判断结果；
b. 构造代价函数，即损失函数，用以表示预测的输出结果与训练数据的实际类别之间的偏差；
c. 最小化代价函数，从而获取最优的模型参数。

1. 分类问题

我们讨论的是要预测的变量y是一个离散情况下的分类问题。
分类问题中，我们尝试预测的是结果是否属于某一个类。分类问题的例子有：判断一封电子邮件是否是垃圾邮件; 判断一次金融交易是否是欺计；判断一个肿瘤是恶性的还是良性的。
我们预测的变量 $\in\{0,1\}$ ，其中 0 表示负类 (Negative class)，1表示正类 (Positive class) 。
Logistic回归算法是一种分类算法，它适用于标签取值离散的情况，它的输出值永远在0到1之间。
不推荐将线性回归用于分类问题，线性回归模型的预测值可超越[0,1]范围。

2. 假设表示

对于分类问题, 我们需要输出0或1，我们可以预测:
当 $h_{\theta}(x) \geqslant 0.5$ 时, 预测 $y = 1$ 。
当 $h_{\theta}(x) \leqslant 0.5$ 时, 预测 $y = 0$ 。
Logistic回归模型的假设函数是 $h_{\theta}(x)=g\left(\theta^{T} X\right)$ , 其中 $X$ 代表特征向量, $g$ 代表Logistic函数。一个常用的Logistic函数为S形函数 (Sigmoid function) , 公式为 $g(z)=\frac{1}{1+e^{-z}}$ , 函数图象如下图所示。

在这里插入图片描述

$h_{\theta}(x)$ 的作用是：对于给定的输入变量 $x$ , 根据选择的参数计算输出变量 $y = 1$ 的可能性 (estimated probablity), 即 $h_{\theta}(x)=P(y=1 \mid x ; \theta)$ , 所以有 $\mid x ; \theta)+P(y=$ $\mid x ; \theta)=1$ 。

3. 决策边界

决策边界分为线性决策边界 (Linear decision boundary) 和非线性决策边界 (Non-linear decision boundary)。下图为线性决策边界的例子，红色代表正类, 蓝色代表负类, 其中参数 $\theta$ 为向量 $[$ -3 1 1 $]$ , 则当 $-3+x_{1}+x_{2} \geqslant 0$ , 即 $x_{1}+x_{2} \geqslant 3$ 时，模型将预测 $y = 1$ 。我们可以绘制直线 $x_{1}+x_{2}=3$ , 这条线便是我们模型的决策边界，它能将预测为1的区域和预测为0的区域分隔开。

在这里插入图片描述

下图为非线性决策边界的例子，其中参数 0 为向量[-1 0 0 1 1], 则当 $-1+x_{1}^{2}+x_{2}^{2} \geqslant 0$ , 即 $x_{1}^{2}+x_{2}^{2} \geqslant 1$ 时, 模型将预测 $y = 1$ 。我们可以绘制圆心在原点且半径为1的圆形 $x_{1}^{2}+x_{2}^{2}=1$ , 它能将预测为1的区域和预测为0的区域分隔开。
在这里插入图片描述

决策边界是假设函数的一个属性，我们可以用非常复杂的模型来适应非常复杂形状的决策边界。

4. 代价函数

定义Logistic回归的代价函数为：

$J(\theta)=\frac{1}{m} \sum_{i=1}^{m} \operatorname{Cost}\left(h_{\theta}\left(x^{(i)}\right), y^{(i)}\right)$

其中
$\operatorname{Cost}\left(h_{\theta}(x), y\right)=\left\{\begin{array}{ll}-\log \left(h_{\theta}(x)\right), & \text { if } y=1 \\ -\log \left(1-h_{\theta}(x)\right), & \text { if } y=0\end{array}\right.$

$h_{\theta}(x)$ 与 $\operatorname{Cost}\left(h_{\theta}(x), y\right)$ 之间的关系如下图所示。
在这里插入图片描述

$\operatorname{Cost}\left(h_{\theta}(x), y\right)$ 函数的特点是:
如上图 a)所示，当实际的 $y = 0$ 且预测的 $h_{\theta}(x)$ 也为0时代价为 0，当 $y = 0$ 但 $h_{\theta}(x)$ 不为0时误差随着 $h_{\theta}(x)$ 变大而变大；
如上图 b)所示，当实际的 $y = 1$ 且预测的 $h_{\theta}(x)$ 也为1时误差为 0 , 当 $y = 1$ 但 $h_{\theta}(x)$ 不为1时误差随着 $h_{\theta}(x)$ 变小而变大。
$\operatorname{Cost}\left(h_{\theta}(x), y\right)$ 函数也可以写成如下的式子:
$\operatorname{Cost}\left(h_{\theta}(x), y\right)=-y \times \log \left(h_{\theta}(x)\right)-(1-y) \times \log \left(1-h_{\theta}(x)\right)$
那么 Logisitic回归的代价函数为
$J(\theta)=\frac{1}{m} \sum_{i=1}^{m} \operatorname{Cost}\left(h_{\theta}\left(x^{(i)}\right), y^{(i)}\right)=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \times \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \times \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right]$

5. 梯度下降

为了拟合出参数, 我们需要最小化代价函数, 找到尽量让 $J(\theta)$ 取得最小值的参数 $\theta$ , 所用的方法是梯度下降法
梯度下降法的实现
$\text { Repeat } \left.\left\{\theta_{j}:=\theta_{j}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}\right\} \quad \text { (Simultaneously update all } \theta_{j}\right)$

6. 高级优化

一些更高级的优化算法有：共轭梯度法、BFGS 和L-BFGS 等。

优点：一个是通常不需要手动选择学习率，它们有一个智能内循环（线性搜索算法），可以自动尝试不同的学习速率 $\alpha$ 并自动选择一个好的学习速率，它们甚至可以为每次迭代选择不同的学习速率，那么我们就不需要自己选择。还有一个是它们经常快于梯度下降算法。
缺点：过于复杂

7. 多类别分类

如何使用 Logisitic回归来解决多类别分类的问题。
对于一个多类分类问题，我们的数据集看起来可能会像下图 b)所示，而下图 a)是我们之前讨论的二元分类问题的数据集。
在这里插入图片描述
我们用3种不同的符号来代表3个类别，可以使用"一对多"方法来进行分类。
现在我们有一个下图所示的训练集，共有3个类别，我们用三角形表示 $y$ =1，方框表示 $y$ = 2，叉表示 $y$ = 3。我们下面要做的就是使用一个训练集，将其分成3个二元分类问题。
我们先从用三角形代表的类别1开始，实际上我们可以创建一个新的"伪"训练集，类型2和类型3定为负类，类型1设定为正类，我们创建一个新的训练集，如图7所示，我们要拟合出一个合适的分类器。
在这里插入图片描述
为了能实现这样的转变, 我们将多个类别中的一个类标记为正类 $(y = 1)$ , 然后将其他所有类都标记为负类, 这个模型记作 $h_{\theta}^{(1)}(x)$ ；
接着, 类似地第我们选择另一个类标记为正类 $(y = 2)$ , 再将其它类都标记为负类, 将这个模型记作 $h_{\theta}^{(2)}(x)$ ；
依此类推，最后我们得到一系列的模型简记为: $h_{\theta}^{(i)}(x)=p(y=i \mid x ; \theta)$ ，其中 $\ldots, k$

最后，在我们需要做预测时，我们将所有的分类机都运行一遍, 然后对每一个输入变量，都选择可能性最高的输出变量。在分类时，我们要做的就是训练这个逻辑回归分类器 $h_{\theta}^{(i)}(x)$ , 其中对应每一个可能的 $y = i$ 。为了做出预测，我们给出输入一个新的 $x$ 值, 用这个值做预测。我们要做的就是在我们三个分类器里面输入 $x$ , 然后我们选择一个让 $h_{\theta}^{(i)}(x)$ 最大的 $i$ , 即 $\max h_{\theta}^{(i)}(x)$ 。

青春是首不老歌丶

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习（三）—— Logisitic回归

文章目录1. 分类问题2. 假设表示Logistic回归又称Logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。1. 分类问题我们讨论的是要预测的变量y是一个离散值情况下的分类问题。分类问题中，我们尝试预测的是结果是否属于某一个类。分类问题的例子有：判断一封电子邮件是否是垃圾邮件; 判断一次金融交易是否是欺计；判断一个肿瘤是恶性的还是良性的。我们预测的变量 y∈{0,1}y \in\{0,1\}y∈{0,1}，其中 0 表示负类 (Negative
复制链接

扫一扫

专栏目录