机器学习：使用梯度下降实现逻辑回归求解多元分类问题的原理

ShadyPi

已于 2022-01-20 19:53:54 修改

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：机器学习逻辑回归分类

于 2022-01-20 19:32:14 首次发布

本文链接：https://blog.csdn.net/ShadyPi/article/details/122604446

版权

机器学习专栏收录该内容

29 篇文章 9 订阅

订阅专栏

文章目录

逻辑函数
逻辑回归的假设函数
代价函数
梯度下降
多元分类问题

线性回归拟合出的连续函数能对连续的值做出预测，但对于分类问题，若把每个种类分别编号 $0,1,2,\cdots$ ，则输出为离散的，对于这种问题，我们采用逻辑回归构建模型。

让我们先考虑二元问题。

逻辑函数

逻辑函数（Logistc Function/Sigmoid Function）定义为
$g(x)=\frac{1}{1+e^{-x}}$
其图像如下：
在这里插入图片描述
对于逻辑函数，当 $x\rightarrow -\infin$ 时， $g(x)\rightarrow0$ ；当 $x\rightarrow +\infin$ 时， $g(x)\rightarrow1$ ，这样的性质就可以拿来作为分类函数。

逻辑回归的假设函数

对于线性回归，假设函数 $h_\theta(\vec{x})=\vec{\theta}^T\vec{x}$ ，而在逻辑回归中，就是在此基础之上运用逻辑函数，令
$h_\theta(\vec{x})=g(\vec{\theta}^T\vec{x})=\frac{1}{1+e^{-\vec{\theta}^T\vec{x}}}$

同时，我们认为假设函数的值即为预测对象被分类为 $1$ 的概率，即
$\Pr(y=1|\vec{x},\vec{\theta})=h_\theta(\vec{x})$
所以，当 $h_\theta(\vec{x})\ge0.5$ ，即 $\vec{\theta}^T\vec{x}\ge0$ 时，我们认为 $\vec{x}$ 应该被分到1类。在多维空间中， $\vec{\theta}^T\vec{x}=0$ 将整个空间划分为1类和0类两个部分，我们称之为决策边界（Decision Boundary）。

代价函数

如果接着用线性回归使用的平方代价函数，整个代价曲线就不再是凸的了，求解很容易陷入局部最优解。因此，考虑使用新的代价函数
$J(\vec{\theta})=\frac{1}{m}\sum_{i=1}^m\text{Cost}(h_\theta(\vec{x}),y)$
其中
$\text{Cost}(h_\theta(\vec{x}),y)=\left\{\begin{aligned} -\log(h_\theta(\vec{x}))&&y=1\\ -\log(1-h_\theta(\vec{x}))&&y=0 \end{aligned}\right.$
上面的 $\text{Cost}$ 函数具有很好的性质，使得当 $y = 1$ 时，若 $h_\theta(\vec{x})=1$ ， $\text{Cost}=0$ ；若 $h_\theta(\vec{x})=0$ ， $\text{Cost}\rightarrow\infin$ 且满足单调。当 $y = 0$ 时也具有类似的性质。

同时，为了使这个分段函数能放到一个表达式里，我们一般将 $\text{Cost}$ 写为
$\text{Cost}(h_\theta(\vec{x}),y)=-y\log(h_\theta(\vec{x}))-(1-y)\log(1-h_\theta(\vec{x}))$
所以最终 $J(\theta)$ 可以写为
$J(\theta)=-\frac{1}{m}\sum_{i=1}^m\left[y\log(h_\theta(\vec{x}))+(1-y)\log(1-h_\theta(\vec{x}))\right]$

梯度下降

对代价函数求导，代入梯度下降公式，发现其形式竟然和线性回归的梯度下降是一样的：
$\theta_j:=\theta_j-\alpha\sum_{i=1}^m(h_\theta(\vec{x^{(i)}})-y^{(i)})x_j^{(i)}$
不过需要注意，虽然该形式与线性回归一致，但两种回归的假设函数 $h_\theta$ 是不同的。

向量化以后就可以得到一种比较快捷的梯度下降实现，令
$\left[\begin{matrix} x_0^{(1)}&x_1^{(1)}&\cdots&x_n^{(1)}\\ x_0^{(2)}&x_1^{(2)}&\cdots&x_n^{(2)}\\ \vdots & \vdots & \ddots &\vdots\\ x_0^{(m)}&x_1^{(m)}&\cdots&x_n^{(m)}\\ \end{matrix}\right] ,\Theta=\left[\begin{matrix} \theta_0\\ \theta_1\\ \vdots \\ \theta_n\\ \end{matrix}\right], Y=\left[\begin{matrix} y_1\\ y_2\\ \vdots \\ y_m\\ \end{matrix}\right]$
则在每次迭代有
$\Theta:=\Theta-\frac{\alpha}{m}X^T(g(X\Theta)-Y)$

多元分类问题

对于多元分类问题，我们可以将一个多元分类问题拆解成多个二元分类问题。比如对于 $y = 1, 2, 3$ 这样的三元分类问题，其实可以看做三个二元分类问题，分别是区分1和其他、区分2和其他、区分3和其他。

具体来讲，对于第 $i$ 类的分类问题，我们训练一个假设函数 $h_\theta^{(i)}(\vec{x})$ ，该函数的值就是 $\vec{x}$ 属于第 $i$ 类的概率，即
$h_\theta^{(i)}(\vec{x})=\Pr(y=i|\vec{x},\vec{\theta})$
当我们对每一个种类都做一次逻辑回归后，就可以得到 $k$ 个假设函数，那么函数值最大的那个类别就是我们认为 $\vec{x}$ 应该属于的类别。这种方法称之为一对多（One-vs-all）方法。