机器学习算法原理——逻辑斯谛回归

逻辑斯谛回归

写在前面:逻辑斯谛回归最初是数学家 Verhulst 用来研究人口增长是所发现的,是一个非常有趣的发现过程, b 站有更详细的背景及过程推导,在此不再赘述:https://www.bilibili.com/video/BV1No4y1o7ac/?p=59
在这里插入图片描述

逻辑斯谛分布的标准形式:
F ( x ) = 1 1 + e − x F(x) = \frac{1}{1 + e^{-x}} F(x)=1+ex1

f ( x ) = e − x ( 1 + e − x ) 2 f(x) = \frac{e^{-x}}{(1 + e^{-x})^2} f(x)=(1+ex)2ex

  • 分布函数是一条 S S S 形曲线,该曲线也被称为 sigmoid 曲线,关于点 ( 0 , 1 2 ) (0,\frac{1}{2}) (0,21) 中心对称。
  • 概率密度函数一条钟型曲线,中间高两端低,关于 x = 0 x = 0 x=0 对称,在此处取得最大值 (人口增速最大时刻)。

逻辑斯谛回归的一般形式:

X \rm X X 是连续随机变量, X \rm X X 服从逻辑斯谛分布是指 X \rm X X 具有下列分布函数和概率密度:
F ( x ) = P ( X ⩽ x ) = 1 1 + e − ( x − μ ) / γ F(x)=P(X\leqslant x)={\frac{1}{1+\mathrm{{e}}^{-(x-\mu)/\gamma}}}\\ F(x)=P(Xx)=1+e(xμ)/γ1

f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F^{\prime}(x)={\frac{\mathrm{e}^{-(x-\mu)/\gamma}}{\gamma(1+\mathrm{e}^{-(x-\mu)/\gamma})^{2}}} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ

式中, μ \mu μ 为位置参数, γ > 0 \gamma > 0 γ>0 为形式参数。

  • 分布函数是一条 S S S 形曲线,该曲线也被称为 sigmoid 曲线,关于点 ( μ , 1 2 ) (\mu,\frac{1}{2}) (μ,21) 中心对称。
  • 概率密度函数一条钟型曲线,中间高两端低,关于 x = μ x = \mu x=μ 对称,在此处取得最大值 1 4 γ \frac{1}{4 \gamma} 4γ1 (人口增速最大时刻)。

二项逻辑斯谛回归模型

P ( Y = 1 ∣ x ) = exp ⁡ ( w ⋅ x + b ) 1 + exp ⁡ ( w ⋅ x + b ) P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)} P(Y=1x)=1+exp(wx+b)exp(wx+b)

P ( Y = 0 ∣ x ) = 1 1 + exp ⁡ ( w ⋅ x + b ) P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)} P(Y=0x)=1+exp(wx+b)1

其中, x ∈ R n x \in {\bf R^n} xRn 是输入, Y ∈ 0 , 1 Y \in {0,1} Y0,1 是输出, w ∈ R n w \in {\bf R^n} wRn b ∈ R n b \in {\bf R^n} bRn 是参数, w w w 称为权值向量, b b b 称为偏置, w ⋅ x w \cdot x wx x x x x x x 的内积。

为了方便,将权重向量和输入向量加以扩充,仍记为 w w w x x x ,则有:
ω = ( ω ( 1 ) , ω ( 2 ) , ⋯   , ω ( n ) , b ) T , x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) , 1 ) T , \omega=\left(\omega^{(1)}, \omega^{(2)}, \cdots, \omega^{(n)}, b\right)^T, \quad \quad x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}, 1\right)^T, ω=(ω(1),ω(2),,ω(n),b)T,x=(x(1),x(2),,x(n),1)T,
逻辑分布函数重写为:
P ( Y = 1 ∣ x ) = e w ⋅ x 1 + e w ⋅ x P(Y=1 \mid x)=\frac{e^{w \cdot x}}{1 + e^{w \cdot x}} P(Y=1x)=1+ewxewx

P ( Y = 0 ∣ x ) = 1 1 + e w ⋅ x P(Y=0 \mid x)=\frac{1}{1 + e^{w \cdot x}} P(Y=0x)=1+ewx1

极大似然估计

二项分布:
P ( Y ) = { 1 − p , Y = 0 p , Y = 1 = ( 1 − p ) 1 − Y p Y P(Y)=\left\{\begin{array}{ll} 1-p, & Y=0 \\ p, & Y=1 \end{array}=(1-p)^{1-Y} p^Y\right. P(Y)={1p,p,Y=0Y=1=(1p)1YpY
对于 ( x i , y i ) (x_i, y_i) (xi,yi) ,有:
P ( Y = y i ∣ x i ) = ( 1 − p i ) 1 − y i p i y i P(Y = y_i | x_i) = (1 - p_i)^{1 - y_i} p_i^{y_i} P(Y=yixi)=(1pi)1yipiyi
其中:
p i = e w ⋅ x i 1 + e w ⋅ x i 1 − p i = 1 1 + e w ⋅ x i \begin{align} p_i = \frac{e^{w \cdot x_i}}{1 + e^{w \cdot x_i}}\\ 1 - p_i = \frac{1}{1 +e^{w \cdot x_i}} \end{align} pi=1+ewxiewxi1pi=1+ewxi1
对于数据集 T = ( X 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) T = {(X_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)} T=(X1,y1),(x2,y2),,(xN,yN) 出现的概率:
∏ i = 1 N ( 1 − p i ) 1 − y i p i y i \prod_{i = 1}^N (1 - p_i)^{1 - y_i} p_i^{y_i} i=1N(1pi)1yipiyi
该概率只与 w w w 有关,即可得关于 w w w 的似然函数:
L ( w ) = ∏ i = 1 N ( 1 − p i ) 1 − y i p i y i L(w) = \prod_{i = 1}^N (1 - p_i)^{1 - y_i} p_i^{y_i} L(w)=i=1N(1pi)1yipiyi
对数似然函数:
log ⁡ ∏ i = 1 N p i y i ( 1 − p i ) 1 − y i = ∑ i = 1 N [ y i log ⁡ p i + ( 1 − y i ) log ⁡ ( 1 − p i ) ] = ∑ i = 1 N [ y i log ⁡ p i 1 − p i + log ⁡ ( 1 − p i ) ] \begin{align} \log \prod_{i = 1}^{N} p_i^{y_i} (1 - p_i)^{1 - y_i} &= \sum_{i = 1}^{N}[y_i \log p_i + (1 - y_i) \log(1-p_i)]\\ &= \sum_{i = 1}^{N}[y_i \log \frac{p_i}{1 - p_i} + \log(1 - p_i)] \end{align} logi=1Npiyi(1pi)1yi=i=1N[yilogpi+(1yi)log(1pi)]=i=1N[yilog1pipi+log(1pi)]
代入(12)(13)式:
L ( w ) = ∑ i = 1 N [ y i   w ⋅ x i − log ⁡ ( 1 + e w ⋅ x i ) ] L(w) = \sum_{i = 1}^{N}[y_i \ w \cdot x_i - \log(1 + e^{w \cdot x_i})] L(w)=i=1N[yi wxilog(1+ewxi)]
这样,问题就变成了以对数似然函数为目标函数的最优化问题,可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。逻辑斯谛回归学习中通常采用的方法是梯度下降法拟牛顿法

多项逻辑斯谛回归模型

二项逻辑斯谛回归模型可将其推广到多项逻辑斯谛回归模型(multi-nominal logistic regression model),用于多类分类。假设离散型随机变量 Y Y Y 的取值集合是 1 , 2 , ⋯   , K {1,2,\cdots, K} 1,2,,K ,那么多项逻辑斯谛回归模型是:
P ( Y = k ∣ x ) = exp ⁡ ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 exp ⁡ ( w k ⋅ x ) , k = 1 , 2 , ⋯   , K − 1 P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 exp ⁡ ( w k ⋅ x ) \begin{align} P(Y&=k \mid x)=\frac{\exp \left(w_k \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_k \cdot x\right)}, \quad k=1,2, \cdots, K-1 \\ P(Y&=K \mid x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_k \cdot x\right)} \end{align} P(YP(Y=kx)=1+k=1K1exp(wkx)exp(wkx),k=1,2,,K1=Kx)=1+k=1K1exp(wkx)1
这里, x ∈ R n + 1 x \in {\bf R^{n+1}} xRn+1 w k ∈ R n + 1 w_k \in {\bf R^{n+1}} wkRn+1

总结归纳

  • 逻辑斯谛回归归根结底是将分类问题用回归模型来解决。
  • 正态分布是在给定均值和方差的情况下具有最大熵的分布,这样的假设可以使得数据携带的信息量最大。通常在没有任何假设的情况下,连续型数据常被假设为正态分布,离散型数据常被假设为等概率分布。
  • P ( Y = 1 ∣ x ) + P ( Y = 0 ∣ x ) = 1 P(Y=1 \mid x) + P(Y=0 \mid x) = 1 P(Y=1x)+P(Y=0x)=1
  • 逻辑斯谛回归学习中通常采用的方法是梯度下降法拟牛顿法
  • 逻辑回归模型不局限于输入变量和输出变量之间是否存在线性关系,可以通过 sigmoid 函数代替非连续型函数,当 sigmoid 函数大于等于 0.5时即可判断类别。
  • 逻辑回归的输入变量可以是连续变量,也可以是离散变量
  • 参数估计:说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。
  • 极大似然估计:极大似然估计就是建立在参数估计的思想上,已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
  • sigmoid 激活函数在深度学习中应用广泛,逻辑斯谛回归更是在分类问题中被大量使用。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值