机器学习第七章——逻辑回归（第六章对Octave的使用跳过）

最新推荐文章于 2024-01-01 08:30:00 发布

倚剑笑紅尘

最新推荐文章于 2024-01-01 08:30:00 发布

阅读量284

点赞数 1

分类专栏：机器学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_36782366/article/details/89022482

版权

机器学习同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

机器学习

29 篇文章 1 订阅

订阅专栏

一. 分类和假设陈述

要尝试分类，一种方法是使用线性回归，并将所有大于0.5的预测值映射为1，将小于0.5的所有预测值映射为0.但是，此方法效果不佳，因为分类实际上不是线性函数。分类问题就像回归问题一样，除了我们现在想要预测的值只有少数离散值。

线性回归用来解决分类问题，通常不是一个好主意。

我们解决分类问题，忽略y是离散值，并使用我们的旧线性回归算法来尝试预测给定的x。但是，构建这种方法性能很差的示例很容易。直观地说，当知道 $y\in \begin{Bmatrix} 0,1 \end{Bmatrix}$ 时， $h_{\theta}(x)$ 取大于1或小于0的值也是没有意义的。为了解决这个问题，让我们改变我们的假设 $h_{\theta}(x)$ 的形式以满足 $0\leqslant h_{\theta}(x)\leqslant 1$ 。这是通过将 $\theta^{T}x$ 插入 Logistic 函数来完成的：

$g(x) = \frac{1}{1+e^{-x}}$

上式称为 Sigmoid Function 或者 Logistic Function

令 $h_{\theta}(x) = g(\theta^{T}x)$ , $z = \theta^{T}x$ ,则:

$g(x) = \frac{1}{1+e^{-\theta^{T}x}}$

这里显示的函数 $g(x)$ 将任何实数映射到（0,1）区间，使得它可用于将任意值函数转换为更适合分类的函数。

ℎ ? (?)的作用是，对于给定的输入变量，根据选择的参数计算输出变量=1 的可能性，即

决策界限

决策边界不是训练集的属性，而是假设本身及其参数的属性。用数据拟合，决定参数 ? ，从而确定了决策边界。

1.代价函数

线性回归的代价函数为：
我们重新定义逻辑回归的代价函数为：

如果将 $h_{\theta}(x) = \frac{1}{1+e^{-\theta^{T}x}}$ 代入到上面的式子中， $\rm{CostFunction}$ 的函数图像会是一个非凸函数，会有很多个局部极值点。

于是我们重新寻找一个新的代价函数：

$\rm{CostFunction} = \rm{F}({\theta}) = \frac{1}{m}\sum_{i = 1}^{m} \rm{Cost}(h_{\theta}(x^{(i)}),y^{(i)})$$$$\rm{Cost}(h_{\theta}(x^{(i)}),y^{(i)}) = \left\{\begin{matrix} -log(h_{\theta}(x)) &if \; y = 1 \\ -log(1-h_{\theta}(x)) & if\; y = 0 \end{matrix}\right.$

需要说明的一点是，在我们的训练集中，甚至不在训练集中的样本，y 的值总是等于 0 或者 1 。

ℎ ? (?)与 cost(ℎ ? (?),?)之间的关系如下图所示

2. 简化代价函数和梯度下降

于是进一步我们把代价函数写成一个式子：

$\rm{Cost}(h_{\theta}(x),y) = - ylog(h_{\theta}(x)) - (1-y)log(1-h_{\theta}(x))$

所以代价函数最终表示为：

$\begin{align*} \rm{CostFunction} = \rm{F}({\theta}) &= \frac{1}{m}\sum_{i = 1}^{m} \rm{Cost}(h_{\theta}(x^{(i)}),y^{(i)})\\ &= -\frac{1}{m}\left [ \sum_{i=1}^{m} y^{(i)}logh_{\theta}(x^{(i)}) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)})) \right ] \\ \left( h_{\theta}(x) = \frac{1}{1+e^{-\theta^{T}x}} \right ) \end{align*}$

向量化形式：

$\begin{align*} h &= g(X\theta)\\ \rm{CostFunction} = \rm{F}({\theta}) &= \frac{1}{m} \left ( -\overrightarrow{y}^{T}log(h) - (1-\overrightarrow{y})^{T}log(1-h) \right ) \\ \end{align*}$