吴恩达机器学习课程笔记（五）逻辑回归

最新推荐文章于 2023-04-23 20:27:28 发布

夜雨晴

最新推荐文章于 2023-04-23 20:27:28 发布

阅读量200

点赞数

分类专栏：吴恩达机器学习课程笔记文章标签：机器学习

本文链接：https://blog.csdn.net/qq_33735228/article/details/108580582

版权

吴恩达机器学习课程笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

逻辑回归用来解决分类问题，例如判断邮件是否为垃圾邮件，某笔在线交易是否涉嫌欺诈；肿瘤为恶性还是良性等二分类问题及其他多分类问题。

为何不将线性回归应用于分类问题中

多数时候分类结果不理想

以判断肿瘤为恶性还是良性的分类问题为例，训练集样本如下图所示，用直线 $h_\theta(x)=\theta_0+\theta_1x_1$ 对数据进行拟合，如下图品红色直线所示。我们做以下假设：当预测值大于等于0.5时，正类，恶性；当预测值小于0.5时，负类，良性。在当前情况下，似乎线性回归也取得了不错的分类效果。
在这里插入图片描述
现在，我们的训练集中新增了一个训练样本，我们仍然用直线进行拟合，如下图蓝色直线所示。沿用上述预测值大于等于0.5时，正类，恶性；当预测值小于0.5时，负类，良性的假设，此时两个负类样本被错分到正类，分类效果不理想。
在这里插入图片描述

预测值连续，实际值离散

在这里插入图片描述

逻辑回归假设函数

逻辑回归假设函数是在线性回归假设函数外套上一个sigmoid函数，sigmoid函数又被称为logistic函数，能将任意实数值映射到 $(0, 1)$ 区间内。
在这里插入图片描述
假设函数输出值 $h_\theta(x)$ 的解释是：对于一个输入 $x ， y = 1$ 的概率估计为 $h_\theta(x)$ 。
对肿瘤问题，可以解释为：对于一个特征为 $x$ 的患者，其患恶性肿瘤的概率为 $h_\theta(x)$ 。

决策边界–正负类概率相同时

逻辑回归假设函数 $h_\theta(x)=g(\theta^Tx)$ ，其中 $g(z)=\frac{1}{1+e^{-z}}$ 。根据函数 $g$ 的图像可知，当 $\theta^Tx>0$ 时， $h_\theta(x)>0.5$ ，正类概率大于负类； $\theta^Tx<0$ 时， $h_\theta(x)<0.5$ ，负类概率大于正类； $\theta^Tx=0$ 时， $h_\theta(x)=0.5$ ，此时正类负类的概率相同。 $\theta^Tx=0$ 作为区分正类负类的边界，被称为决策边界。
决策边界是假设函数的属性，取决于假设函数及其参数，与数据集无关。

示例1–线性边界

在这里插入图片描述

示例2–非线性边界

在这里插入图片描述

示例3–更复杂的边界

通过在特征中增加复杂的多项式（包括但不限于引入二次方、三次方项等），可以得到更复杂的决策边界。 $h_\theta(x)=g(\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1^2+\theta_4x_1^2x_2+\theta_5x_1^2x_2^2+\theta_6x_1^3x_2+...)$ 在这里插入图片描述

损失函数–关于 $\theta$ 的凸函数

问题描述

在这里插入图片描述

损失函数的选择

如果沿用线性回归损失函数（平方损失函数），由于逻辑回归假设函数非线性，损失函数将是关于参数 $\theta$ 的非凸函数，有许多局部极小值。
在这里插入图片描述
理想的损失函数应为关于 $\theta$ 的凸函数，方便我们使用梯度下降法找到全局最小值。
逻辑回归单个样本的损失函数如下：

当 $y = 1$ 时，若预测值 $h_\theta(x)=1$ ，预测准确，损失为0；若预测值 $h_\theta(x)=0$ ，预测错误，损失为正无穷。
在这里插入图片描述
当 $y = 0$ 时，若预测值 $h_\theta(x)=0$ ，预测准确，损失为0；若预测值 $h_\theta(x)=1$ ，预测错误，损失为正无穷。

简化损失函数及梯度下降

损失函数简化

逻辑回归损失函数如下图所示：
在这里插入图片描述
我们可以将目前分段的单个样本损失函数简化为一行： $Cost(h_\theta(x),y)=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x))$ 因此，训练集上的损失函数 $J(\theta)$ 为：
该函数来源于统计学中的最大似然估计，是关于 $\theta$ 的凸函数。

梯度下降法最小化 $J(\theta)$

在这里插入图片描述
其中：

因此， $\theta$ 的更新过程可写为：

注意，对sigmoid函数，有

高级优化

提升逻辑回归算法运行速度，使算法能适用于大型机器学习问题。
对于任意的参数 $\theta$ ，我们首先需要编写代码实现对训练集损失函数 $J(\theta)$ ， $J(\theta)$ 对 $\theta_j$ 求偏导的计算。
在这里插入图片描述
除梯度下降外，还可使用共轭梯度、BFGS、L-BFGS等更复杂的优化算法。这些高级算法原理涉及高级数值计算，在此不做说明，只强调三者的优缺点。
优点：(1)不需要指定学习率 $\alpha$ ，算法基于线搜索策略选择最合适的学习率，可以为每次迭代选择不同的学习率。(2)比梯度下降更快收敛。
缺点：过于复杂难以理解(会用就行)