为什么LogisticRegression模型的激活函数要使用Sigmoid函数？-CSDN博客

本文链接：https://blog.csdn.net/Queen0911/article/details/103378732

备注：脑子昏迷状态书写，错误请指正。

一、指数分布族

在统计应用中，有两大重要的参数族：指数分布族(exponential families)，亦称指数型分布族；位置尺寸分布族(location-scale families)。
针对指数族分布，响应变量 $Y$ 的描述可不再局限于正态分布。

概率密度函数定义
假设有一列观测样本： ${x_i,y_i\}_{i=1}^n$ ：
$f(y_i|x_i; \beta,\phi) = exp\{\frac{y_i\eta_i-b(\eta_i)}{\phi} + c(y_i, \phi)\}\triangleq f(y_i|\eta_i,\phi)$
其中， $\eta_i$ 为自然参数(Natural Parameter)； $\phi$ 为尺度参数.
备注1：在canonical情形下， $\eta_i=\beta^Tx_i$
备注2：
** $\eta_i=(g\circ\mu)(\eta_i)=(g\circ\mu)(\beta^Tx_i)=\beta^Tx_i$ ;
** $\mu$ 为激活函数「E.G. LR中的Sigmoid函数」； $g$ 成为Link Function「LR中的Logit函数/Probit函数」, 其中：g与 $\mu$ 互为逆函数: $g=\mu^{-1}$ ,
** 实则这里的 $\mu(\eta_i)=E(y_i|x_i)$ ，后续案例中可自行校验.
** 这里Link Function作用是对Y的期望做变换，使变换后的结果与x成线性关系： $g(E[y_i|x_i])=\beta^Tx_i$
** 激活函数的作用是将预测结果映射到因变量所在的取值范围内
备注3： $b'(\eta)$ 为配分函数
备注4：上述公式是关于随机变量Y的概率密度函数，此处样本 $y_i$ 可以来自于为：伯努利分布、二项分布、高斯分布、泊松分布等
备注5：上述这种概率密度定义是简化的形式，更一般的描述为： $p(Y|\eta)=h(Y)exp\{\eta^T*\phi(Y)-A(\eta)\}$ ，其中 $\phi(Y)$ 为充分统计量， $A(\eta)$ 为配分函数且与随机变量 $Y$ 无关
指数族的均值和方差
$\begin{aligned} \frac{\partial}{\partial \eta_i} E[logf(y_i|\eta_i,\phi)] =& E[\frac{\partial}{\partial \eta_i}logf(y_i|\eta_i,\phi) ]\\ =& \int\frac{1}{f(y_i|\eta_i,\phi)}*\frac{\partial f(y_i|\eta_i,\phi)}{\partial \eta_i}*f(y_i|\eta_i,\phi)dy_i\\ =& 0\\ =& E[\frac{y_i-b'(\eta_i)}{\phi}] \end{aligned}$
可得随机变量 $Y$ 的期望： $E(Y)=b'(\eta_i)$

借助上一篇“Fisher信息量与Cramer-Rao不等式”博文中有提到：
$E[\frac{\partial^2 ln(f(x:\theta)}{\partial \theta^2}] = \textbf{-}E\{(\frac{\partial lnf(x;\theta)}{ \partial\theta})^2\}$
$\begin{aligned} E[\frac{y_i-b'(\eta_i)}{\phi} ]^2 =& E[\frac{\partial}{\partial \eta_i}logf(y_i|\eta_i,\phi)]^2\\ =& -E[\frac{\partial^2}{\partial \eta_i^2}log(y_i|\eta_i,\phi)]\\ =& E[\frac{b''(\eta_i)}{\phi}] \end{aligned}$
可得： $Var(Y)=E[Y-b'(\eta_i)]^2=\phi*b''(\eta_i)$

二、指数分布族案例

(1)伯努利分布[Bernoulli Distribution] ~ $B (1, p)$
已知：伯努利分布 $Y$ ， $E (Y) = p$ , $V a r (Y) = p (1 - p)$ .
$\begin{aligned} p_{i}^{y_i}*(1-p_i)^{1-y_i} =& exp\{y_i*log(p_i) + (1-y_i)*log(1-p_i)\}\\ =& exp\{y_i*log(\frac{p_i}{1-p_i}) - [-log(1-p_i)]\} \end{aligned}$
可得：
$\phi=1$
$\eta_i=log(\frac{p_i}{1-p_i})$ => $p_i=\frac{e^{\eta_i}}{1+e^{\eta_i}}=\frac{1}{1+e^{-\eta_i}}=\frac{1}{1+e^{-\beta^{T}x_i}}$
$b(\eta_i)=-log(1-p_i)=log(1+e^{\eta_i})$

下面我们验证指数分布族中 $b(\eta)$ 与分布期望、方差的关系：
$b'(\eta_i)=\frac{e^{\eta_i}}{1+e^{\eta_i}}=p_i=E[Y]$
$b''(\eta_i)*\phi=b''(\eta_i)=\frac{e^{\eta_i}}{(1+e^{\eta_i})^2}=p_i*(1-p_i)=Var(Y)$
注1：上述式子中，link function: $g=log(\frac{t}{1-t})$ 称为Logit函数；激活函数 $\mu=\frac{1}{1+e^{-\eta}}$ 称为Sigmiod函数
注2：因为伯努利分布中，因变量取值为{0,1}, 所需预测内容为取得{0,1}值的概率 $\in[0,1]$ ，借助上述Sigmoid函数，将 $(-\infty,+\infty)\rightarrow[0,1]$
注3：将 $(-\infty,+\infty)\rightarrow[0,1]$ 除了采取Sigmoid激活函数，还可以采用正态分布的累积分布函数 $\Phi(x)\in[0,1]$ 作为激活，此时Link Function称为Probit函数，记作： $\Phi^{-1}(t)$

(2)二项分布[Binomial Distribution]~ $B (n, p)$
已知：二项分布 $Y$ ， $E (Y) = n p$ , $V a r (Y) = n p (1 - p)$ .
$\begin{aligned} C_n^{y_i} p_{i}^{y_i} * (1-p_i)^{n-y_i} =& exp\{y_i*log(\frac{p_i}{1-p_i}) + nlog(1-p_i) + logC_n^{y_i}\}\\ =& exp\{y_i*log(\frac{p_i}{1-p_i}) - [-log(1-p_i)]\} \end{aligned}$
对上式随机变量 $y_i$ ~ $B(n,p_i)$ ，做如下变换： $y_i/n, s.t. y_i=0,1/n,2/m=n,\cdots,1$
$\begin{aligned} C_n^{y_i} p_{i}^{y_i} * (1-p_i)^{n-y_i} =& exp\{ny_i*log(\frac{p_i}{1-p_i}) + nlog(1-p_i) + logC_n^{ny_i}\}\\ =& exp\{\frac{y_i*log(\frac{p_i}{1-p_i}) - (-log(1-p_i))}{\frac{1}{n}}+ logC_n^{ny_i}\} \end{aligned}$
可得：
$\phi=\frac{1}{n}$
$\eta_i=log(\frac{p_i}{1-p_i})$ => $p_i=\frac{e^{\eta_i}}{1+e^{\eta_i}}=\frac{1}{1+e^{-\eta_i}}$

$b(\eta_i)=-log(1-p_i)=log(1+e^{\eta_i})$ =>
$b'(\eta_i)=\frac{e^{\eta_i}}{1+e^{\eta_i}}=p_i$ => $E[B(n,p_i)/n]=p_i$
=> $E[B(n,p_i)]=np_i$
$b''(\eta_i)*\phi=b''(\eta_i)/n=\frac{e^{\eta_i}}{n(1+e^{\eta_i})^2}=p_i*(1-p_i)/n$
=> $Var(B(n,p_i))=np_i(1-p_i)$
注意：上述式子中，link function: $g=log(\frac{t}{1-t})$ , 激活函数 $\mu=\frac{1}{1+e^{-\eta}}$

(3)正态分布[Normal Distribution]~ $N(\mu, \sigma)$
已知：正态分布 $Y$ ， $E(Y)=\mu$ , $Var(Y)=\sigma^2$ .
$\begin{aligned} \frac{1}{\sqrt{2\pi}\sigma}*exp\{-\frac{(y-u)^2}{2\sigma^2}\} =& exp\{\frac{y*\mu-\frac{\mu^2}{2}}{\sigma^2} - \frac{y^2}{2*\sigma^2} - \frac{1}{2}log(2\pi\sigma^2)\} \end{aligned}$
可得：
$\phi=\sigma^2$
$\eta=\mu$

$b(\eta)=\frac{\mu^2}{2}$ =>
$b'(\eta)=\mu$ => $E[y]=\mu$
$b''(\eta)*\phi=\sigma^2$ => $Var(y)=\sigma^2$
注意：上述式子中， $\eta_i=\mu(\eta_i)=g(\eta_i)$ , $\mu$ 与 $g$ 为恒等连接映射

(4)泊松分布[Possion Distribution]~ $P(\theta)$
已知：正态分布 $Y$ ， $E(Y)=\theta$ , $Var(Y)=\theta$ .
$\begin{aligned} \frac{\theta^y*e^{-\theta}}{y!} =& exp\{ylog(\theta)- \theta - log(y!)\} \end{aligned}$
可得：
$\phi=1$
$\eta=log(\theta)$ => $\theta=e^\eta$

$b(\eta)=\theta=e^\eta$ =>
$b'(\eta)=e^\eta=\theta$ => $E[y]=\theta$
$b''(\eta_i)*\phi=e^\eta=\theta$ => $Var(y)=\theta$
注意：上述式子中，link function: $g = l o g (t)$ , 激活函数 $\mu=e^\eta$