逻辑回归(Logistic Regression)原理及损失函数、极大似然估计

PuJiang-

已于 2022-08-24 14:07:04 修改

阅读量4.2k

点赞数 3

分类专栏：深度学习理论基础文章标签：逻辑回归机器学习算法

于 2022-08-23 16:43:36 首次发布

本文链接：https://blog.csdn.net/jump882/article/details/126485676

版权

深度学习理论基础专栏收录该内容

16 篇文章 3 订阅

订阅专栏

一、什么是逻辑回归

虽然名字是“回归”，但解决的是“分类”问题。
模型学习的是 $E[y|x;\theta]$ ，即给定自变量和超参数后，得到因变量的期望，并基于此期望来处理预测分类问题。
前提：逻辑回归假设数据服从伯努利分布，通过极大似然估计的方法，是用梯度下降法求解参数，最终达到二分类的目的。
逻辑回归本质上是线性回归，只是在特征到结果的映射中加入了一层激活函数 $\sigma(z)$ ，即先把特征线性求和 $z=w^Tx$ ，然后使用函数 $\sigma(z)$ 作为假设函数来预测。 $\sigma(z)$ 可以将连续值映射到0 和1。 $\sigma(z)$ 为sigmoid function。

其中，真实标签为 $y_i$ ，特征向量 $x_i$ 在参数 $\theta$ 下的预测值为 $h_\theta (x_i)$ 。
下图为sigmoid公式、图像，注意取值范围 (0,1)： $\sigma(z)=\frac{1}{1+e^{-z}}$ $h_\theta (x)=\sigma(\theta^Tx)\\ =\frac{1}{1+e^{-\theta^Tx}}$
在这里插入图片描述
下图为求导过程、导数图像注意取值范围 (0,0.25] : $\sigma^{'}(z)=\frac{0-1*(1+e^{-z})^{'}}{(1+e^{-z})^2}\\ =\frac{-e^{-z}*-1}{(1+e^{-z})^2}\\=\frac{e^{-z}}{(1+e^{-z})^2}\\ =\frac{1+e^{-z}-1}{(1+e^{-z})^2}\\ =\frac{1}{(1+e^{-z})}-\frac{1}{(1+e^{-z})^2}\\ =\sigma(z)(1-\sigma(z))$
在这里插入图片描述

二、逻辑回归求解0/1分类问题

模型学习的是 $E[y|x;\theta]$ ，即给定自变量和超参数后，得到因变量的期望，并基于此期望来处理预测分类问题。
逻辑回归的假设：
1、数据服从伯努利分布
2、模型的输出值是样本为正的概率
$P(y=1|x;\theta)=h_\theta (x)=\frac{1}{1+e^{-\theta^Tx}}$
$P(y=0|x;\theta)=1-h_\theta (x)=1-\frac{1}{1+e^{-\theta^Tx}}=\frac{e^{-\theta^Tx}}{1+e^{-\theta^Tx}}$
$P(y|x;\theta)=(h_\theta (x))^y(1-h_\theta (x))^{1-y}$

面经：既然只需要得到0/1概率，为什么不使用简单的阶跃函数，而是使用sigmoid函数作为假设？

1、阶跃函数
使用阶跃函数将线性输出转化到[0,1]。
$\sigma(z)=\begin{cases}0,z<0\\0.5,z=0 \\1,z>0\end{cases}$
该分段函数是不连续、且不可导的。
2、sigmoid函数
连续且处处可导函数。
$\sigma(z)=\frac{1}{1+e^{-z}}$ $\sigma^{'}(z)==\sigma(z)(1-\sigma(z))$
因为线性回归模型的预测值是一个实数，如果应用到0/1分类问题当中，就需要把线性回归模型的预测值和分类标签能够对应起来。
如果采用单位阶跃函数，是不连续且不可导的。（得到目标函数，没法对参数进行求导）
如果采用sigmoid函数，是连续且处处可导的。而且能够将线性输出转化到(0,1)区间。

三、求参数 $\theta$ 的方式

可以采用两种不同的角度：交叉熵/对数损失函数和极大似然估计。
二者本质上是等价的。损失函数的目标是最小化，似然函数则是最大化，二者仅相差一个符号。

1、交叉熵/对数损失函数

1）线性回归采用最小二乘法，基于MSE作为损失函数

$L(\theta)=\sum_{i=1}^{n}(\theta^\mathrm{T}x_i-y_i)^2$
可以直接求解析解或采用梯度下降法求解参数 $\theta$ 。

2）逻辑回归属于分类问题，需要依据先前算出来的概率来估计0/1类别

先前的假设2，输出的结果是正样本的概率。由此根据不同类别，需要不同的损失函数。p越大说明y=1的概率越大，y=1的loss越小。使用log函数设计损失函数：
$L(\theta)=\begin{cases}-log(p),y=1\\-log(1-p),y=0 \end{cases}$
函数图像如下所示：
在这里插入图片描述分为两段，使用起来不方便，将这两段进行合并，以下为单个样本的损失函数：
$L(\theta)=-ylog(p)-(1-y)log(1-p)$
若数据集中有m个样本，则总体损失函数(也就是交叉熵损失函数)为：
$L(\theta)=-\frac{1}{m}\sum_{i=1}^my^{(i)}log(p^{(i)})+(1-y^{(i)})log(1-p^{(i)})$
目标就是找到一组 $\theta$ ，使得上面的 $L(\theta)$ 最小。这个函数是凸函数，但是没有公式解，只能通过梯度下降法进行求解。

2、极大似然法估计参数 $\theta$

极大似然估计是一种参数估计的方法。已知某个事件已经发生，求导致该事件发生的概率最大的参数。
核心思想：找到参数 θ 的一个估计值，使得当前样本出现的可能性最大。即联合概率最大，需要写出联合概率密度函数，即似然函数，求似然函数最大时参数的值。
对于数据集 $\{(x_i,y_i)\}^m_{i=1}$ ，一共有m个样本。即令每个样本属于其真实标记的概率越大越好。

*极大似然估计基本步骤

1）写出似然函数(联合概率密度)

$L(\theta)=\prod\limits_{i=1}^mp(y^{(i)}|x^{(i)};\theta)$

2）取对数(连乘符号变成连加符号，容易求导)

$lnL(\theta)=ln\prod\limits_{i=1}^mp(y^{(i)}|x^{(i)};\theta) \\=\sum\limits_{i=1}^mlnp(y^{(i)}|x^{(i)};\theta)$

3）对参数 $\theta$ 求偏导数

$\frac{\partial}{\partial \theta} lnL(\theta)=0?$ 有解则为所求的参数 $\theta$ 。

*极大似然估计具体求解过程

1）似然函数

$L(\theta)=P(y|x;\theta)\\ =\prod\limits_{i=1}^mp(y^{(i)}|x^{(i)};\theta)\\ =\prod\limits_{i=1}^m(h_\theta (x^{(i)}))^{y^{(i)}}(1-h_\theta (x^{(i)}))^{1-y^{(i)}}$

2）log似然函数

$logL(\theta)=\sum\limits_{i=1}^m{y^{(i)}}logh_\theta (x^{(i)})+({1-y^{(i)}})log(1-h_\theta (x^{(i)}))$

3）极大似然函数求最优解

$\hat{\theta}=argmax logL(\theta)=argmax\sum\limits_{i=1}^m{y^{(i)}}(logh_\theta (x^{(i)}))+({1-y^{(i)}})log(1-h_\theta (x^{(i)}))$
可以看到，极大似然估计求解的是最大值，而交叉熵损失函数(对数损失函数求解的是最小值)。二者本质上并无差别。