【吴恩达机器学习】逻辑回归 Logistic Regression

最新推荐文章于 2023-04-03 23:29:19 发布

Elliott__

最新推荐文章于 2023-04-03 23:29:19 发布

阅读量370

点赞数

分类专栏：机器学习文章标签：机器学习逻辑回归

本文链接：https://blog.csdn.net/monochrome00/article/details/104109806

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

逻辑回归（Logistic Regression）

对于分类问题(Classification problem)，也就是预测的变量 $y$ 是一个离散值（比如 $y=\{0, 1\}$ ），可以使用**逻辑回归(Logistic Regression)**来处理。逻辑回归的假设函数满足： $0\le h_\theta (x)\le 1$

假设函数（Hypothesis Representation）

$\left. \begin{matrix} h_\theta(x)=g(\theta^Tx)\\ g(z)=\frac{1}{1+e^{-z}} \end{matrix} \right\} \; h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$

$g (z)$ 称作 (sigmoid函数/logistic函数)，它的值域在 $(0, 1)$ 范围内，所以假设函数的值域也在 $(0, 1)$ 之间。下面是 $g (z)$ 的函数图像：

在这里插入图片描述

假设函数 $h_\theta(x)$ 表示的是对于输入 $x$ ，它的真实值 $y$ 是 $1$ 的概率估计。也可以表示为： $h_\theta(x)=P(y=1|x;\theta)$
$P(y=0|x;\theta)+P(y=1|x;\theta)=1\\ P(y=0|x;\theta)=1-P(y=1|x;\theta)$
决策边界（Decision Boundary）：给假设函数一个边界，边界两边的值分别是 $0$ 和 $1$ ，通过这种方式输出离散值。比如我们以 $h_\theta(x)=0.5$ 为界，也就是以 $\theta^TX=0$ 为边界，大于 $0$ 的值为 $1$ ，小于 $0$ 的值为 $0$ 。

代价函数（Cost Function）

如果简单的套用线性回归的代价函数： $J(\theta)=\frac{1}{m}\sum_{i=1}^m\frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2$ ，会发现 $J(\theta )$ 不是一个凸函数(Non-convex)，也就没法进行梯度下降。

逻辑回归的代价函数：
$J(\theta)=\frac{1}{m}\sum_{i=1}^{m}\text{Cost}(h_\theta(x^{(i)}),y^{(i)})$

$\text{Cost}(h_\theta(x),y)= \begin{cases} -\log(h_\theta(x))&& y=1\\ -\log(1-h_\theta(x))&& y=0 \end{cases}$

关于 $c o s t$ 的意义，画一张图就很好理解：

在这里插入图片描述

代价函数的式子也可以写成下面这个更加紧凑的形式：
$J(\theta)=-\frac{1}{m}[\sum_{i=1}^my^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log(1-h_\theta(x^{(i)})]$
在这里梯度下降的意义也是让 $J(\theta)$ 最小化，代入梯度下降的一般算法并求导可得下面的形式：
$\begin{aligned} & repeat\;until\;convergence\;\{\\ & \qquad \theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})*x_j^{(i)} \\ & \}\\ \end{aligned}$
这个式子跟线性回归的基本一样，但是期内不得代价函数并不相同。

另外逻辑回归为了更好的效率，也要进行特征缩放。

高级优化

对于给定参数 $\theta$ ，如果我们能够求出：

$J(\theta)$
$\frac{\partial}{\partial \theta_j}J(\theta)$

我们有一下几个算法：

梯度下降（Gradient descent）
共轭梯度法（Conjugate gradient）
变尺度法（BFGS）
限制变尺度法（L-BFGS）

后三个算法比梯度下降更加优秀，它们既不需要手动调整参数$\alpha $，运行速度也比梯度下降快。它们唯一的缺陷就是太难了。

多元分类：一对多（Multi-class classification: One-vs-all）

多元分类处理的问题对象是预测值存在多个的情况： $y={1,2,3,4,...}$

如果有 $n$ 个可能值，我们只需要进行对应的 $n$ 次的逻辑回归即可。假设函数 $h_\theta^{(i)}(x)$ 表示对于输入 $x$ ，预测 $y = i$ 的概率，并从中选一个最大的 $i$ 作为最后的预测值。也就是 $\text{max}_ih_\theta^{(i)}(x)$

参考资料

[1].吴恩达机器学习第七章-Logistic 回归

Elliott__

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【吴恩达机器学习】逻辑回归 Logistic Regression

逻辑回归（Logistic Regression）对于分类问题(Classification problem)，也就是预测的变量 yyy 是一个离散值（比如y={0,1}y=\{0, 1\}y={0,1}），可以使用**逻辑回归(Logistic Regression)**来处理。逻辑回归的假设函数满足：0≤hθ(x)≤10\le h_\theta (x)\le 10≤hθ(x)≤1假设函数...
复制链接

扫一扫