吴恩达《机器学习》笔记——第六章《逻辑回归/对数几率回归》

肥胖边缘疯狂蹦迪

已于 2022-05-17 14:18:39 修改

阅读量187

点赞数

分类专栏：机器学习文章标签：机器学习逻辑回归人工智能

于 2022-05-13 13:55:02 首次发布

本文链接：https://blog.csdn.net/qq_43572747/article/details/124731388

版权

机器学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

本文深入探讨了逻辑回归在分类问题中的应用，包括分类原理、假设表示（通过Sigmoid函数），决策边界的定义，以及代价函数的设计。介绍了如何通过梯度下降优化代价函数，并讨论了多元分类的'一对多'策略。此外，还提到了高级优化方法，如共轭梯度法和BFGS等。

摘要由CSDN通过智能技术生成

6、Logistic Regression（逻辑回归/对数几率回归）

6.1 Classification（分类）
6.2 Hypothesis Representation（假设表示）
6.3 Decision boundary（决策边界）
6.4 Cost function（代价函数）
6.5 Simplified cost function and gradient descent（简化代价函数与梯度下降）
6.6 Advanced optimization（高级优化）
6.7 Multi-class classification One-vs-all（多元分类：一对多）

6.1 Classification（分类）

Logistic回归虽然被称为“回归”，但是它是一个“分类”算法，用在预测值为离散值 $0$ 或 $1$ 的情况下。

6.2 Hypothesis Representation（假设表示）

当有一个分类问题时，用什么方程去表示该问题对应的假设？

Logistic Regression Model 想要 $0\leq h_\theta(x)\leq1$ 。令 $h_\theta(x)=g(\theta^Tx)$ ，其中 $g(z)=\frac{1}{1+e^{-z}}$ 称为Sigmoid函数或Logistic函数。Sigmoid函数的图像如图所示：
在这里插入图片描述
假设函数 $h_\theta(x)$ 输出的解释： $h_\theta(x)=$ estimated probability that $y = 1$ on input $x$ ，即 $h_\theta(x)=P(y=1|x;\theta)$ ，因为 $y$ 只能取值 $0$ 或 $1$ ，所以 $P(y=0|x;\theta)=1-h_\theta(x)$ 。

注：上述的 $\theta=(\theta_0,\theta_1,\cdots,\theta_n)^T,x=(x_0,x_1,\cdots,x_n),x_0=1$ 。

6.3 Decision boundary（决策边界）

假设预测 $y = 1$ ，如果 $h_\theta(x)\geq0.5$ ；预测 $y = 0$ ，如果 $h_\theta(x)<0.5$ 。由Sigmoid函数， $g(z)\geq0.5\iff z\geq0,g(z)<0.5\iff z<0$ 其中 $z$ 是关于 $x,\theta$ 的函数 $z(x,\theta)$ ，比如6.1， $z(x,\theta)=\theta^Tx$ 。 $z(x,\theta)=0$ 被称为决策边界。

注： $z(x,\theta)$ 可以是多项式。决策边界不是训练集的属性，而是假设本身及其参数的属性。

6.4 Cost function（代价函数）

对于线性回归： $J(\theta)=\frac{1}{m}\sum_{i=1}^m\frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2$ 。令 $Cost(h_\theta(x^{(i)}),y^{(i)})=\frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2$ 。

注：其实所有回归的代价函数都可写成 $J(\theta)=\frac{1}{m}\sum_{i=1}^mCost(h_\theta(x^{(i)}),y^{(i)})$ 的形式。

如果直接使用逻辑回归的假设函数替代线性回归中的假设函数，则 $J(\theta)$ 是非凸的。所以，希望构造一个 $Cost(h_\theta(x),y)$ 使得 $J(\theta)$ 是凸的。对于逻辑回归，令 $Cost(h_\theta(x),y)= \begin{cases} -log(h_\theta(x)),&\text{if }y=1 \\ -log(1-h_\theta(x)),&\text{if }y=0 \end{cases}$ 则该 $Cost(h_\theta(x),y)$ 使得 $J(\theta)$ 是凸的。

6.5 Simplified cost function and gradient descent（简化代价函数与梯度下降）

由6.6知， $J(\theta)=\frac{1}{m}\sum_{i=1}^mCost(h_\theta(x^{(i)}),y^{(i)})$ ， $Cost(h_\theta(x),y)=\begin{cases} -log(h_\theta(x)),&\text{if }y=1\\-log(1-h_\theta(x)),&\text{if }y=0 \end{cases}$ ，
可以将 $Cost(h_\theta(x),y)$ 简化为
$Cost(h_\theta(x),y)=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x))$ 则 $J(\theta)=\frac{1}{m}\sum_{i=1}^mCost(h_\theta(x^{(i)}),y^{(i)})=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]$
利用梯度下降算法最小化 $J(\theta)$ ，有 $\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$ 。对于 $h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$ ，有 $\frac{\partial}{\partial\theta_j}J(\theta)=\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$ 在求解时，可以把上述所有的 $\theta_j$ 组成向量求解。
注：第四章提到过的特征缩放和调整学习率也可以用在这。

6.6 Advanced optimization（高级优化）

就是提了除了梯度下降法最小化代价函数外，还有其它更好的方法来优化代价函数，比如共轭梯度法、BFGS、L-BFGS。这些都可以在数值优化的书上找到。

6.7 Multi-class classification One-vs-all（多元分类：一对多）

本文介绍了一个简单的使用逻辑回归解决多类别分类问题，该算法称为“一对多”的分类算法。
Idea：对于有着 $n$ 个分类的多分类问题 ${y=i\}_{i=1}^n$ ，学习 $n$ 个逻辑回归分类器 $\{h_\theta^i(x)=P(y=i|x;\theta)\}_{i=1}^n$ 。在训练 $h_\theta^i(x)$ 时，相当于是一个二分类，把 $y = i$ 看做 $y = 1$ ，其它训练样本看作 $y = 0$ 。

对于新输入的 $x$ ，做预测时，选择使得 $h_\theta^i(x)$ 最大的 $i$ ，即 $\mathop{\max}\limits_{i}h_\theta^i(x)$ 。

肥胖边缘疯狂蹦迪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达《机器学习》笔记——第六章《逻辑回归/对数几率回归》

6、Logistic Regression（逻辑回归/对数几率回归）6.1 Classification（分类）6.2 Hypothesis Representation（假设表示）6.3 Decision boundary（决策边界）6.4 Cost function（代价函数）6.7 Simplified cost function and gradient descent（简化代价函数与梯度下降）6.1 Classification（分类）Logistic回归虽然被称为“回归”，但是它是一个“分类
复制链接

扫一扫

专栏目录