逻辑回归笔记

最新推荐文章于 2024-10-05 20:24:47 发布

Lu_Junhao

最新推荐文章于 2024-10-05 20:24:47 发布

阅读量224

点赞数

分类专栏：机器学习基础知识文章标签：机器学习

本文链接：https://blog.csdn.net/Junhao_Lu/article/details/107548802

版权

基础知识同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

机器学习

8 篇文章 0 订阅

订阅专栏

Logistic Regression

1 前言

怎么将n维向量 $x=[x_1,x_2,...,x_n]$ 映射成一个点y呢？很容易想到就是将向量 $x$ 与另一个向量做内积。这个向量我们称为参数 $\theta$ ，即 $\theta=[\theta_0, \theta_1, ...,\theta_n]$ 。所以做内积就是 $x\cdot\theta$ 【即行向量X乘以（行向量 $\theta$ 的转置）】得到一个数。

上面就是我们熟知的线性回归，这时的值域是 $(-\infty,+\infty)$ ，但是我们要得到的是0或者1，所以要把值域限制一下，将值域正负无穷改为(0, 1)，于是用到了sigmoid函数

2 二元逻辑回归模型

对线性回归的结果做一个在函数g上的转换，可以变化为逻辑回归。这个函数g在逻辑回归中我们一般取为sigmoid函数，形式如下：

$g(z)=\frac{1}{1+e^{-z}}$

函数图像如下：

sigmoid函数图像

它有一个非常好的性质，即当z趋于正无穷时， $g (z)$ 趋向于1，当z趋于负无穷时， $g (z)$ 趋向于0，这非常适合于我们的分类概率模型。另外，它还有一个很好的导数性质：

$g^{'}(z)=g(z)(1-g(z))$

如果我们另 $g (z)$ 函数中的z为： $\theta$ ，这样就得到了二元逻辑回归模型的一般形式：

$h_{\theta}(x) = \frac{1}{1+e^{-x\theta}}$

其中，x是样本数据输入， $h_\theta(x)$ 是模型输出，可以理解为某一分类的概率大小， $\theta$ 为模型参数，需要样本数据训练更新得最优。对于模型输出 $h_\theta(x)$ ，我们将它与y联系起来为，当 $x\theta>0$ 时， $h_\theta(x)>0.5$ ，则y为1；当 $x\theta<0$ 时， $h_\theta(x)<0.5$ ，则y为0；当 $x\theta=0$ 时， $h_\theta(x)=0.5$ ，逻辑回归模型本身无法确定分类。

$h_\theta(x)$ 的值越小，而分类为0的的概率越高，反之，值越大的话分类为1的的概率越高。如果靠近临界点，则分类准确率会下降。

将模型写成矩阵模式如下：

$h_\theta(X) = \frac{1}{1+e^{-X\theta}}$

其中X为样本特征矩阵，维度为m*n， $\theta$ 为模型参数矩阵，维度为n*1， $h_\theta(X)$ 为模型输出，维度为m*1。

理解了二元分类回归的模型，接着我们就要看模型的损失函数了，我们的目标是极小化损失函数来得到对应的模型系数 $\theta$ 。

3 损失函数

对于解决分类问题的逻辑回归，如果使用均方误差，当函数输出值远离目标值和靠近目标值时，其偏导值都接近于0，导致距离目标值很远时，loss也很小，更新的速度慢，如果增大学习率的话，也无法确定输出值到底是远离目标值还是接近目标值。

不过我们可以用最大似然法来推导出我们的损失函数。

假设我们的样本输出是0或者1两类。那么我们有：

$P(y=1|x,\theta) = h_{\theta}(x)$

$P(y=0|x,\theta) = 1 - h_{\theta}(x)$

把这两个式子写成一个式子，就是：

$P(y|x,\theta) = (h_{\theta}(x))^y(1 - h_{\theta}(x))^{(1-y)}$

其中y的取值只能是0或者1。

得到了y的概率分布函数表达式，我们就可以用似然函数最大化来求解我们需要的模型系数θ。

为了方便求解，这里我们用对数似然函数最大化，对数似然函数取反即为我们的损失函数J(θ)。其中：

似然函数的代数表达式为：

$L(\theta)=\prod_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)\right)^{y^{(i)}}\left(1-h_{\theta}\left(x^{(i)}\right)\right)^{1-y^{(i)}}$

其中m为样本的个数。

对似然函数对数化取反的表达式，即损失函数表达式为：

$J(\theta)=-\ln L(\theta)=-\sum_{i=1}^{m}\left(y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right)$

损失函数用矩阵法表达更加简洁：

$J(\theta) = - Y^T log(h_{\theta}(X)) - (E-Y)^Tlog(E-h_{\theta}(X))$

其中E为全1向量。

4 二元逻辑回归的损失函数的优化方法

最常见的优化方法有梯度下降法，坐标轴下降法，等牛顿法等。这里推导出梯度下降法中θ每次迭代的公式。由于代数法推导比较的繁琐，这里给出矩阵法推导二元逻辑回归梯度的过程。

对于 $J(\theta) = - Y^T log(h_{\theta}(X)) - (E-Y)^Tlog(E-h_{\theta}(X))$ ，我们用 $J(\theta)$ 对 $\theta$ 向量求导可得：

$\frac{\partial}{\partial \theta} J(\theta)=X^{T}\left[\frac{1}{h_{\theta}(X)} \odot h_{\theta}(X) \odot\left(E-h_{\theta}(X)\right) \odot(-Y)\right]+X^{T}\left[\frac{1}{E-h_{\theta}(X)} \odot h_{\theta}(X) \odot\left(E-h_{\theta}(X)\right) \odot(E-Y)\right]$