机器学习算法原理——逻辑斯谛回归

Dragon水魅

已于 2023-03-07 21:17:08 修改

阅读量905

点赞数

分类专栏：机器学习算法及原理文章标签：机器学习算法回归

于 2023-03-01 21:22:50 首次发布

本文链接：https://blog.csdn.net/qq_43650934/article/details/129290200

版权

机器学习算法及原理专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

逻辑斯谛回归

写在前面：逻辑斯谛回归最初是数学家 Verhulst 用来研究人口增长是所发现的，是一个非常有趣的发现过程， b 站有更详细的背景及过程推导，在此不再赘述：https://www.bilibili.com/video/BV1No4y1o7ac/?p=59
在这里插入图片描述

逻辑斯谛分布的标准形式：
$\frac{1}{1 + e^{-x}}$

$\frac{e^{-x}}{(1 + e^{-x})^2}$

分布函数是一条 $S$ 形曲线，该曲线也被称为 sigmoid 曲线，关于点 $(0,\frac{1}{2})$ 中心对称。
概率密度函数一条钟型曲线，中间高两端低，关于 $x = 0$ 对称，在此处取得最大值（人口增速最大时刻）。

逻辑斯谛回归的一般形式：

设 $\rm X$ 是连续随机变量， $\rm X$ 服从逻辑斯谛分布是指 $\rm X$ 具有下列分布函数和概率密度：
$F(x)=P(X\leqslant x)={\frac{1}{1+\mathrm{{e}}^{-(x-\mu)/\gamma}}}\\$

$f(x)=F^{\prime}(x)={\frac{\mathrm{e}^{-(x-\mu)/\gamma}}{\gamma(1+\mathrm{e}^{-(x-\mu)/\gamma})^{2}}}$

式中， $\mu$ 为位置参数， $\gamma > 0$ 为形式参数。

分布函数是一条 $S$ 形曲线，该曲线也被称为 sigmoid 曲线，关于点 $(\mu,\frac{1}{2})$ 中心对称。
概率密度函数一条钟型曲线，中间高两端低，关于 $\mu$ 对称，在此处取得最大值 $\frac{1}{4 \gamma}$ （人口增速最大时刻）。

二项逻辑斯谛回归模型

$\mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)}$

$\mid x)=\frac{1}{1+\exp (w \cdot x+b)}$

其中， $\in {\bf R^n}$ 是输入， $\in {0,1}$ 是输出， $\in {\bf R^n}$ 和 $\in {\bf R^n}$ 是参数， $w$ 称为权值向量， $b$ 称为偏置， $\cdot x$ 为 $x$ 和 $x$ 的内积。

为了方便，将权重向量和输入向量加以扩充，仍记为 $w$ 和 $x$ ，则有：
$\omega=\left(\omega^{(1)}, \omega^{(2)}, \cdots, \omega^{(n)}, b\right)^T, \quad \quad x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}, 1\right)^T,$
逻辑分布函数重写为：
$\mid x)=\frac{e^{w \cdot x}}{1 + e^{w \cdot x}}$

$\mid x)=\frac{1}{1 + e^{w \cdot x}}$

极大似然估计

二项分布：
$P(Y)=\left\{\begin{array}{ll} 1-p, & Y=0 \\ p, & Y=1 \end{array}=(1-p)^{1-Y} p^Y\right.$
对于 $x_i, y_i)$ ，有：
$P(Y = y_i | x_i) = (1 - p_i)^{1 - y_i} p_i^{y_i}$
其中：
$\begin{align} p_i = \frac{e^{w \cdot x_i}}{1 + e^{w \cdot x_i}}\\ 1 - p_i = \frac{1}{1 +e^{w \cdot x_i}} \end{align}$
对于数据集 ${(X_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}$ 出现的概率：
$\prod_{i = 1}^N (1 - p_i)^{1 - y_i} p_i^{y_i}$
该概率只与 $w$ 有关，即可得关于 $w$ 的似然函数：
$\prod_{i = 1}^N (1 - p_i)^{1 - y_i} p_i^{y_i}$
对数似然函数：
$\begin{align} \log \prod_{i = 1}^{N} p_i^{y_i} (1 - p_i)^{1 - y_i} &= \sum_{i = 1}^{N}[y_i \log p_i + (1 - y_i) \log(1-p_i)]\\ &= \sum_{i = 1}^{N}[y_i \log \frac{p_i}{1 - p_i} + \log(1 - p_i)] \end{align}$
代入（12）（13）式：
$\sum_{i = 1}^{N}[y_i \ w \cdot x_i - \log(1 + e^{w \cdot x_i})]$
这样，问题就变成了以对数似然函数为目标函数的最优化问题，可以应用极大似然估计法估计模型参数，从而得到逻辑斯谛回归模型。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

多项逻辑斯谛回归模型

二项逻辑斯谛回归模型可将其推广到多项逻辑斯谛回归模型（multi-nominal logistic regression model），用于多类分类。假设离散型随机变量 $Y$ 的取值集合是 ${1,2,\cdots, K}$ ，那么多项逻辑斯谛回归模型是：
$\begin{align} P(Y&=k \mid x)=\frac{\exp \left(w_k \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_k \cdot x\right)}, \quad k=1,2, \cdots, K-1 \\ P(Y&=K \mid x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_k \cdot x\right)} \end{align}$
这里， $\in {\bf R^{n+1}}$ ， $w_k \in {\bf R^{n+1}}$ 。

总结归纳

逻辑斯谛回归归根结底是将分类问题用回归模型来解决。
正态分布是在给定均值和方差的情况下具有最大熵的分布，这样的假设可以使得数据携带的信息量最大。通常在没有任何假设的情况下，连续型数据常被假设为正态分布，离散型数据常被假设为等概率分布。
$\mid x) + P(Y=0 \mid x) = 1$ 。
逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。
逻辑回归模型不局限于输入变量和输出变量之间是否存在线性关系，可以通过 sigmoid 函数代替非连续型函数，当 sigmoid 函数大于等于 0.5时即可判断类别。
逻辑回归的输入变量可以是连续变量，也可以是离散变量。
参数估计：说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。
极大似然估计：极大似然估计就是建立在参数估计的思想上，已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。
sigmoid 激活函数在深度学习中应用广泛，逻辑斯谛回归更是在分类问题中被大量使用。

Dragon水魅

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法原理——逻辑斯谛回归

逻辑斯谛回归归根结底是将分类问题用回归模型来解决。正态分布是在给定均值和方差的情况下具有最大熵的分布，这样的假设可以使得数据携带的信息量最大。通常在没有任何假设的情况下，连续型数据常被假设为正态分布，离散型数据常被假设为等概率分布。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。
复制链接

扫一扫

专栏目录