【CV】吴恩达机器学习课程笔记 | 第6章

最新推荐文章于 2024-09-07 10:28:21 发布

Fannnnf

最新推荐文章于 2024-09-07 10:28:21 发布

阅读量391

点赞数

分类专栏：吴恩达机器学习课程笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_42475234/article/details/122844256

版权

吴恩达机器学习课程笔记专栏收录该内容

16 篇文章 2 订阅

订阅专栏

本文介绍了逻辑回归在机器学习中的应用，特别是在二分类问题上的优势。讨论了逻辑回归的假设表示，使用Sigmoid函数作为决策边界的确定方式。此外，解释了决策边界的形状可以是直线或曲线，并详细阐述了代价函数的简化过程，以确保在梯度下降中找到全局最小值。最后提到了多元分类问题的一对多方法。

摘要由CSDN通过智能技术生成

本系列文章如果没有特殊说明，正文内容均解释的是文字上方的图片
机器学习 | Coursera
吴恩达机器学习系列课程_bilibili

6 逻辑回归

6-1 逻辑分类算法

用于输出量 $y$ 是离散值如0/1的情况
不宜用线性回归进行机器学习

6-2 假设表示

在这里插入图片描述

在逻辑分类中，将假定函数改为 $h_θ(x)=g(θ^Tx)$ ，假定函数函数的值即为输出真（1）的概率
函数 $g (z)$ 称作Sigmoid函数或Logistic函数，其表达式为 $\frac{1}{1+e^{-z}}$
综上，逻辑分类中的假定函数为 $\frac{1}{1+e^{-θ^Tx}}$

6-3 决策边界

在这里插入图片描述

predict “y=1” if $h_θ(x)\ge0.5$
predict “y=0” if $h_θ(x)＜0.5$
在上图右上角 $g(z)=\frac{1}{1+e^{-z}}$ 函数的图像中，用 $g (z)$ 来表示假定函数，要计算何时 $g (z) > 0.5$ ，只要计算何时 $z\ge0$ ，即计算何时 $θ^Tx>0$
计算得出的决策边界可以是直线
决策边界也可以是圆形的

6-4 代价函数

之前的线性表示的代价函数为：
$J(θ)=\frac{1}{m}\sum_{i=1}^m\frac{1}{2}(h_θ(x^{(i)})-y^{(i)})^2$
将 $\frac{1}{2}(h_θ(x^{(i)})-y^{(i)})^2$ 表示为 $Cost(h_θ(x^{(i)}),y^{(i)})$
去掉 $(i)$ 之后简写为
$J(θ)=\frac{1}{2m}\sum_{i=1}^mCost(h_θ(x),y)$

由于在逻辑回归上继续使用这个代价函数会导致输出的代价函数不是凸函数，不能使用梯度下降算法输出全局最小值
所以在逻辑回归中将代价函数中的 $Cost(h_θ(x),y)$ 改为如下
$Cost(h_θ(x),y)= \begin{cases} -log(h_θ(x))& \text{if y=1}\\ -log(1-h_θ(x))& \text{if y=0} \end{cases}$
$Cost(h_θ(x),y)$ 中第一个函数的图像如上图
输出量 $y = 1$ 时，若假定函数 $h_θ(x)=1$ ，那么 $Cost(h_θ(x),y)$ 输出值将会趋向于0，即代价函数趋向于0，使得这点对假定函数的惩罚为0，几乎不改变结果
输出量 $y = 1$ 时，若假定函数 $h_θ(x)\rightarrow0$ ，那么 $Cost(h_θ(x),y)$ 输出值将会趋向于 $+\infty$ ，即代价函数趋向于 $+\infty$ ，使得这点对假定函数的惩罚为 $+\infty$ ，极大地改变结果，使假定函数在这点处的输出结果迅速回到正确的值上来

在这里插入图片描述

$Cost(h_θ(x),y)$ 中第二个函数的图像如上图

6-4 简化代价函数与梯度下降

由于 $y = 0$ or $1$ 恒成立（ $y = 0$ or $1$ always），所以可以将 $Cost(h_θ(x),y)$ 简化为一个式子

$Cost(h_θ(x),y)=-ylog(h_θ(x))-(1-y)log(1-h_θ(x))$
最后得出的用于逻辑回归的代价函数为：
$J(θ)=\frac{1}{m}\sum_{i=1}^mCost(h_θ(x^{(i)}),y^{(i)})$
$J(θ)=-\frac{1}{m}\left[\sum_{i=1}^my^{(i)}log(h_θ(x^{(i)}))+(1-y^{(i)})log(1-h_θ(x^{(i)}))\right]$
在梯度下降中不断循环(for j=1,2,…,n)的式子为：
$θ_j:=θ_j-α\frac{\partial}{\partial θ_j}J(θ)$
$θ_j:=θ_j-α\sum_{i=1}^m(h_θ(x^{(i)})-y^{(i)})x_j^{(i)}$