逻辑回归（Logistic Regression）_逻辑回归英文介绍-CSDN博客

本文链接：https://blog.csdn.net/weixin_42717395/article/details/103394409

$L o g i s t i c$ 分布

设 $X$ 是连续随机变量， $X$ 服从 $L o g i s t i c$ 分布是指 $X$ 的分布函数和密度函数分别为：
$\leqslant x)=\frac{1}{1+\mathrm{e}^{-(x-\mu) / \gamma}}\\ f(x)=F^{\prime}(x)=\frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^{2}}$
其中， $\mu$ 为位置系数， $\gamma>0$ 为形状参数

逻辑回归的定义

$L o g i s t i c$ 回归目的是从特征学习一个 $0 / 1$ 分类模型，而这个模型是将特征的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷，因此，使用 $L o g i s t i c$ 函数（亦称为 $s i g m o i d$ 函数）将自变量映射到 $(0, 1)$ 上，映射后的值被认为是属于 $y = 1$ 的概率

逻辑回归模型：
$\begin{array}{l}{P(Y=1 | x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)}} \\ {P(Y=0 | x)=\frac{1}{1+\exp (w \cdot x+b)}}\end{array}$
这里， $\in \mathbf{R}^{n}$ 是输入， $\in\{0,1\}$ 是输出， $\in \mathbf{R}^{n}$ 和 $\in \mathbf{R}$ 是参数， $w$ 称为权值向量， $b$ 称为偏置， $\cdot x$ 为 $w$ 和 $x$ 的内积

将权值向量和偏置进行拓展： $w=\left(w^{(1)}, w^{(2)}, \cdots, w^{(n)}, b\right)^{\mathrm{T}}$ ， $x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}, 1\right)^{\mathrm{T}}$

逻辑回归模型为：
$\begin{array}{l}{P(Y=1 | x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}} \\ {P(Y=0 | x)=\frac{1}{1+\exp (w \cdot x)}}\end{array}$
事件的几率（ $o d d s$ ）为： $\frac{p}{1-p}$

时间的对数几率（ $l o g o d d s$ ）或者 $l o g i t$ 函数为： $\operatorname{logit}(p)=\log \frac{p}{1-p}$

对于逻辑回归来说： $\log \frac{P(Y=1 | x)}{1-P(Y=1 | x)}=w \cdot x$

这说明在逻辑回归模型中输出 $Y = 1$ 的对数几率是输入 $x$ 的线性函数

模型参数估计

对于给定训练集： $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ， $\in \mathbf{R}^{n}$ 是输入， $\in\{0,1\}$ 是输出

应用极大似然估计法估计模型参数，设：
$x)=\pi(x), \quad P(Y=0 | x)=1-\pi(x), \quad \pi(x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}$
似然函数为：
$\prod_{i=1}^{N}\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}}$
对数似然函数为：
$\begin{aligned} L(w) &=\sum_{i=1}^{N}\left[y_{i} \log \pi\left(x_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(x_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i} \log \frac{\pi\left(x_{i}\right)}{1-\pi\left(x_{i}\right)}+\log \left(1-\pi\left(x_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i}\left(w \cdot x_{i}\right)-\log \left(1+\exp \left(w \cdot x_{i}\right)\right]\right.\end{aligned}$
对 $L (w)$ 求极大值，得到 $w$ 的估计值，可以通过梯度下降或者拟牛顿法进行学习

假设 $w$ 的极大似然估计值为 $\hat{\boldsymbol{w}}$ ，那么逻辑回归模型为：
$x)=\frac{\exp (\hat{w} \cdot x)}{1+\exp (\hat{w} \cdot x)}\\ P(Y=0 | x)=\frac{1}{1+\exp (\hat{w} \cdot x)}$

多类别逻辑回归

随机变量 $Y$ 的取值集合为 $\{1,2, \cdots, K\}$ ， $\in \mathbf{R}^{n+1}, w_{k} \in \mathbf{R}^{n+1}$ ，多项逻辑回归模型为：
$x)=\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}, \quad k=1,2, \cdots, K-1\\ P(Y=K | x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}$