分类算法之逻辑回归（Logistic Regression）

DokiDoki00

于 2024-02-18 23:43:54 发布

阅读量1.2k

点赞数 16

文章标签：分类数据挖掘人工智能

本文链接：https://blog.csdn.net/clriszjgson/article/details/136126940

版权

本文详细介绍了逻辑回归的基本概念，包括其理论推导过程，如何通过sigmoid函数和线性模型结合处理二分类问题，以及极大似然估计和梯度下降在参数优化中的应用。文章还讨论了多类逻辑回归和正则化技术，特别是L1和L2正则化的优缺点，以及逻辑回归的总体优势和局限性。

摘要由CSDN通过智能技术生成

一、逻辑回归简介

将输入特征与某个类别之间的概率关系建模，特别用于解决二分类问题，通过给定的n组数据（训练集）来训练模型，并在训练结束后对给定的一组或多组数据进行分类，其中的每一组数据都是由p个指标构成--主要用于二分类问题

二、逻辑回归的理论推导

1、sigmoid函数，也称为逻辑函数

$sigmoid(x)=\frac{1}{1+e^{-x}}$

sigmoid 函数将输入变换成（0，1）上的输出,找一个关于x的函数来得出分类结果

2、初步思路：

一个二分类问题给的条件：

分类标签Y {0，1}，特征自变量X{x1，x2，……，xn}

如何根据我们手头上的特征来判断它应该属于哪个类别

由一个线性模型来由x预测y $z=w^{T}x+b$ 但这样的函数图像类似一条斜线，难以到达想要的（0或1）的取值，引入sigmoid函数（二者结合的目的是要将线性模型的输出映射到（0，1）区间内

3、将线性模型与sigmoid函数合体

将线性模型与sigmoid函数合体 $z=w^{T}x+b$ （z可以是任何实数）

$g(z)=\frac{1}{1+e^{-z}}$ 将线性模型的输出z映射到（0，1）之间，该函数的特点是，当z趋于正无穷时，g(z) 趋于1 ，当z趋于负无穷，g(z)趋于0，使得线性模型的输出结果变为一个概率值

4、条件概率

$y=\frac{1}{1+e^{-w^{T}x+b}}$ 两边同时取对数可得 $\ln \frac{y}{1-y}=w^{T}X+b$

将y视为样本x作为正例的概率，那么1-y则为样本x作为反例的概率，二者的比值为 $\frac{y}{1-y}$

所以 $\ln \frac{y}{1-y}$ 被称为对数几率

因此 $\ln \frac{p(y=1|x)}{p(y=0|x)}=w^{T}X+b$

所以推出了：

$p(Y=1 \mid X)=\frac{1}{1+e^{-w^{T} X+b}}$

$p(Y=0 \mid X)=1-p(Y=1 \mid X)=\frac{1}{1+e^{w^{T} X+b}}$

5、极大拟然估计

思想：如果一个事件发生了，那么发生这个事件的概率就是最大的。对于样本i，其类别为。对于样本i，可以把h(Xi)看成是一种概率。yi对应是1时，概率是h(Xi)（即Xi属于1的概率，即上面的p(Y=1|X)）；yi对应是0时，概率是1-h(Xi)（Xi属于0的概率，即上面的p(Y=0|X)）。
即有：

$max[\coprod_{i=1}^{n}h(X_{i})^{y_{i}} (1-h(X_{i}))^{1-y_{i}}]$

该式子表示生成观测到所有训练数据样本（即类别标签）的概率，我们想找到一组参数，在这组参数下，模型生成观测数据的概率最大（一组最优参数能够很好的拟合训练数据）

$h(X_{i})$ 给定输入特征Xi 和模型参数，该函数输出样本属于正类的概率

yi表示第i个样本的真实标签，，它的值要么时0要么是1（主要为处理二分类问题）

$\coprod$ 表示连乘

h(xi)表示第i个样本属于正类的概率 1-h(xi)表示第i个样本属于负类的概率

如果样本 i 的真实标签是 y_i=1（正类），那么它的正确分类概率应该是 h(X_i)。相反，如果样本 i 的真实标签是y_i=0（负类），那么正确分类的概率应该是 1-h(X_i)。我们需要一种通用的表示方法，既可以表示正类的概率，也可以表示负类的概率。

用指数形式来表示正确分类的概率，我们将两种情况合并为一个统一的表达式，无论y_i的值是多少，都可以正确的给出样本i的正确分布概率

我们需要计算所有训练样本的联合概率，样本是独立同分布的，确保整个数据集的联合概率被计算在内，之后，我们可以通过最大化这个拟然函数来估计模型参数

对它取对数（将连乘变成累加），并除以样本总数n（我们关心的是平均损失，归一化损失，使其不受样本总数的影响，减少梯度爆炸出现的概率），再乘以负一（将求最大值问题转成求最小值问题）

化简完得到

$J(w)=min(-\frac{1}{n}\sum_{i=1}^{n}[y_{i}(w^{T}x+b)-\ln (e^{w^{T}x+b}+1)])$ 未知数为w和b，我们的目标是找到使J（w）最小化的w和b，我们将使用训练数据（特征和标签）以及优化算法（梯度下降）来迭代更新w和b

J（w)输出的结果是模型预测输出与真实标签之间的偏差（误差）

6、梯度下降求最小值w

通过J(w)对w的一阶导数来找下降方向，并以迭代的方式来更新参数

这里的k代表的是第k次迭代； $\alpha$ 是我们设定的学习率； $p(x_{i})$ 就是我们上面所说的 $P(Y|X_{i})$ ）

三、多类逻辑回归

假设一共分为K类，那么公式换为以下两个：

$\mathrm{P}(\mathrm{Y}=\mathrm{k} \mid \mathrm{x})=\frac{\exp \left(\mathrm{w}_{\mathrm{k}} \cdot \mathrm{x}\right)}{1+\sum_{\mathrm{j}=1}^{\mathrm{K}-1} \exp \left(\mathrm{w}_{\mathrm{j}} \cdot \mathrm{x}\right)}, \mathrm{k} \in 1, \ldots, \mathrm{K}-1$

$\mathrm{P}(\mathrm{Y}=\mathrm{K} \mid \mathrm{x})=\frac{1}{1+\sum_{\mathrm{j}=1}^{\mathrm{K}-1} \exp \left(\mathrm{w}_{\mathrm{j}} \cdot \mathrm{x}\right)}$