机器学习6.1-6.7：Logistic回归

最新推荐文章于 2024-09-02 23:11:05 发布

Noobs_way

最新推荐文章于 2024-09-02 23:11:05 发布

阅读量170

点赞数

分类专栏：机器学习文章标签：机器学习回归逻辑回归

本文链接：https://blog.csdn.net/Noobs_way/article/details/122854928

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这篇博客介绍了逻辑回归在分类问题中的应用，特别是在二元分类中的决策边界和模型假设。内容涵盖模型训练、代价函数、梯度下降以及优化算法。此外，还讨论了一对多分类策略，将多分类问题转化为多个二分类问题的解决方法。

摘要由CSDN通过智能技术生成

6.1 分类

当预测的值为离散型变量时，我们将这类问题归于监督学习的分类问题。举例来说，垃圾邮件的判断，肿瘤良性恶性的判别等即属此类。
预测的值仅为0或1时，0被称为负类(negative class)，1被称为正类(positive class)。 但同时，我们也存在多分类的问题，比如优良中差等级评定等问题。如图所示：
在这里插入图片描述

6.2 模型假设

我们在这里引入一个新的模型——逻辑回归(Logistic regression)。 同时，我们还要补充一个函数知识：
逻辑函数 (logistic function) ,它保证了输出一定位于0-1之间。
$\frac{1}{1+e^{-z}}$
其函数图像如图所示：
在这里插入图片描述
逻辑回归模型认为，或者说，有这样的假设：
$h_\theta(x) = g(\theta^Tx)$
即：
$h_\theta(x) = \frac{1}{1+e^{-\theta^{T}x}}$
在这里， $h_\theta(x)$ 代表概率，即根据输入值得出输出为1的概率。举例来说，这里有一个输入：
在这里插入图片描述
$x_0$ 仍然和线性回归时一样为1， $x_1$ 为肿瘤大小。我们根据给定的x值得出 $h_\theta(x) = 0.7$ ，说明输出值为1的概率为0.7，即恶性肿瘤的概率为0.7。用数学表达式来阐述的话就是：
$h_\theta(x) = P(y=1|x;\theta)$ 即在给定条件x的情况下，y=1的概率。这个概率的参数为 $\theta$ .

6.3 决策边界

仍以上一节例子继续阐述。
在这里插入图片描述
在这里，我们以0.5为分界线。
$h_\theta(x) \geq 0.5时，预测y=1$
$h_\theta(x) < 0.5时，预测y=0$
我们之前说过的逻辑函数有一个很好的性质，如上图所示，当函数值大于0.5时，自变量大于0；当函数值小于0.5时，自变量小于0。所以可以得出以下结论：
$\theta^Tx \geq0时，预测y = 1$
$\theta^Tx <0时，预测y=0$
接下来我们进入模型训练，假设我们已经拟定好了模型的参数：
$\theta = \begin{bmatrix} -3 \\ 1 \\1 \end{bmatrix}$
现在要对以下的数据集进行预测：
在这里插入图片描述
根据我们上文提到的公式，要预测"y=1",则需要 $-3+x_1+x_2 \geq 0$ ;要预测"y =0"，则需要 $3+x_1+x_2<0$ （反之依然成立）。
在上图中作出 $3 + x_1+x_2=0$ 的图像，如图所示：

因此，我们认定为恶性肿瘤的区域即为直线的上方区域，认定为良性肿瘤的区域为直线的下方区域，这条直线即被称为决策边界(decision boundary)。
我们还给出一个较为复杂的例子，如图所示：
在这里插入图片描述
这里我们不加证明的使用 $h_\theta(x) = g(\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1^2+\theta_4x_2^2)$ 作为我们的假设函数，同时令：
$\theta_0 = -1,\theta_1 = 0,\theta_2=0,\theta_3=1,\theta_4=1$
$即\theta = \begin{bmatrix} -1\\0\\0\\1\\1 \end{bmatrix}$
因此，当 $-1+x_1^2+x_2^2 \ge0时，y=1;-1+x_1^2+x_2^2 <0时,y=0。$
作出决策边界如下：
在这里插入图片描述
在这里我们得出了一个更为复杂的决策边界。实际上，通过改变参数 $\theta$ 的值，我们可以创造非常多样化的决策边界。

6.4 代价函数

一个典型的Logistic回归问题所具有的条件是这样的：

训练集：{( $x^{(1)}$ , $y^{(1)}$ ),( $x^{(2)}$ , $y^{(2)}$ )…( $x^{(m)}$ , $y^{(m)}$ )}；一共有m个样本。
变量：任一x均为向量形式的变量“合集”，即: $x^{(i)}= \begin{Bmatrix} x_0 \\ x_1 \\... \\x_n \end{Bmatrix}$ ,其中 $x_0 = 1$ ， $y\in[0,1]$ 。
函数： $h_{\theta}(x) = \frac{1}{1+e^{-\theta^T}x}$

另外，我们将原来线性回归里的损失函数形式：
$J(\theta)= \frac{1}{m} \sum_{i=1}^m\frac{1}{2}(h_{\theta}(x^{(i)})-y^{(i)})^2$
改写为以下形式：
定义函数:
$Cost(h_{\theta}(x^{(i)}),y^{(i)})=\frac{1}{2}(h_{\theta}(x^{(i)})-y^{(i)})^2$
或者进一步地，去掉这些上标，即考虑整个样本内的情况：
$Cost(h_{\theta}(x),y)=\frac{1}{2}(h_{\theta}(x)-y)^2$
但是，实践表明，在 $h_{\theta}(x) = \frac{1}{1+e^{-\theta^T}x}$ 的情况下，该损失函数的图像是一个非凸函数(non-convex function) 而不是一个凸函数(convex_function)。其原因在于 $h_{\theta}(x)$ 并不与线性回归的预测函数一致，是一个线性函数。

$若对非凸函数使用梯度下降法，则它很难收敛到全局最小值$
因此，我们考虑引入一种新的损失函数，该损失函数需要满足以下特点：

当 $h_{\theta}(x)=0$ 时，损失函数应该有最大值。
当 $h_{\theta}(x)=1$ 时，损失函数应该有最大值。
有全局最小值，最好没有局部最小值

考虑到此时的预测函数特点，我们定义损失函数如下：
$Cost(h_{\theta}(x),y) =\begin{cases} -log(h_{\theta}(x))&,y=1时 \\-log(1-h_{\theta}(x))&,y=0时 \end{cases}$

在这里插入图片描述
如上图所示

6.5 简化后的损失函数以及梯度下降

根据之前所说的，分类问题下的损失函数可以表示为：
$Cost(h_{\theta}(x),y) =\begin{cases} -log(h_{\theta}(x))&,y=1时 \\-log(1-h_{\theta}(x))&,y=0时 \end{cases}$
由于分类问题下，数据集中的样本Y值要么为0要么为1。基于此，我们考虑将上面的损失函数合并成一个函数以简化使用。
$Cost(h_{\theta}(x),y) = -y\log(h_{\theta}(x))-(1-y)\log(1-h_{\theta}(x))$
考虑“上标”问题（更为严谨的写法）：
$J(\theta)= \frac{1}{m}\sum_{i=1}^mCost(h_{\theta}(x^{i}),y^{(i)})$
$\frac{1}{m}\sum_{i=1}^{m} [y^{(i)}\log(h_{\theta}(x^{(i)}))+(1-y^{(i)})\log(1-h_{\theta}(x^{(i)}))]$
然后，类比我们之前在线性回归中使用的梯度下降法：
$\theta_j := \theta_j - \alpha \frac{\partial J(\theta_0,\theta_1...\theta_n)}{\partial \theta_j}$
带入 $J(\theta)$ :
$=\theta_j - \alpha \sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}$
上式中， $\frac{1}{m}$ 被归到了学习率 $\alpha$ 中。
实际上，对比之前在线性回归中的梯度下降法，我们会惊讶地发现两者惊人的一致。
线性回归中的梯度下降:
$\theta_1 := \theta_1 - \alpha\frac{1}{m}\sum_ {i=1}^m((\theta_0 + \theta_1x_i) - y_i)*x_i$
$=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y)x_1^{(i)}$