线性回归、逻辑回归的总结

  • 广义线性分布(包括线性回归,逻辑回归)首先假设预测变量 Y Y Y服从指数分布族的分布。像线性回归就是假设了 Y Y Y服从了高斯分布。而逻辑回归假设变量服从伯努利分布。
  • 指数分布族的概率密度函数为
    P ( Y , η ) = b ( Y ) e ( η T T ( Y ) − a ( η ) ) P(Y, \eta)=b(Y) e^{\left(\eta^{T} T(Y)-a(\eta))\right.} P(Y,η)=b(Y)e(ηTT(Y)a(η))
    其中 ϕ \phi ϕ为分布的参数,T(Y)称为充分统计量(一般为Y)

1)线性回归

在这里插入图片描述

  • 定义:利用线性回归方程的最小二乘函数对自变量x与因变量y之间关系进行建模的回归分析(参考wiki)。
  • 最小二乘法:一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。
  • 线性回归方程:
    Y = W T X Y = W^TX Y=WTX
    其中X可以包含偏置 b b b
  • 最优化方法:
  1. 非数值方法,直接对矩阵求导

从贝叶斯的角度看待线性回归

  • 线性回归可以看成是一种极大似然估计(极大似然估计(MLE)是一种估计参数的方法,MLE假设已经知道随机样本服从的分布但不知道分布的参数,根据当前样本去求使当前样本出现的最大概率的分布参数,即使 P ( W ∣ X ) P(W|X) P(WX)最大)。
  • 我们首先假设Y服从高斯分布 N ( μ , 1 ) N(\mu,1) N(μ,1),则Y的概率密度可以转换成指数分布族的一般形式:
    P ( Y , η ) = 1 2 π e − ( Y − μ ) 2 2 = 1 2 π e − γ 2 2 + μ Y − μ 2 2 = 1 2 π e − Y 2 2 e μ Y − μ 2 2 \begin{aligned} P(Y, \eta) &=\frac{1}{\sqrt{2 \pi}} e^{-\frac{(Y-\mu)^{2}}{2}} \\ &=\frac{1}{\sqrt{2 \pi}} e^{-\frac{\gamma^{2}}{2}+\mu Y-\frac{\mu^{2}}{2}} \\ &=\frac{1}{\sqrt{2 \pi}} e^{-\frac{Y^{2}}{2}} e^{\mu Y-\frac{\mu^{2}}{2}} \end{aligned} P(Y,η)=2π 1e2(Yμ)2=2π 1e2γ2+μY2μ2=2π 1e2Y2eμY2μ2
    显然, b ( Y ) = 1 2 π e − Y 2 2 b(Y)=\frac{1}{\sqrt{2 \pi}} e^{-\frac{Y^{2}}{2}} b(Y)=2π 1e2Y2 η = μ \eta=\mu η=μ T ( Y ) = Y T(Y)=Y T(Y)=Y
  • 线性回归假设Y服从分布参数为 μ = η = ω T X \mu=\eta=\omega^TX μ=η=ωTX的高斯分布 N ( μ , 1 ) N(\mu, 1) N(μ,1),则参数W的似然函数为
                                        log ⁡ ∏ i = 1 N 1 2 π ∗ e − ( y i − ω T x i ) 2 / 2 \log \prod_{i=1}^{N} \frac{1}{\sqrt{2 \pi}} * e^{-\left(y_{i}-\omega^{T} x_{i}\right)^{2} / 2} logi=1N2π 1e(yiωTxi)2/2
    将似然函数变形,去掉常数项以后得
                                         
    ∑ i = 1 N − ( y i − ω T x i ) 2 \sum_{i=1}^{N}-\left(y_{i}-\omega^{T} x_{i}\right)^{2} i=1N(yiωTxi)2
    然后优化问题就可以变为
                                 max ⁡ ∑ i = 1 N − ( y i − ω T x i ) 2 = min ⁡ ∑ i = 1 N ( y i − ω T x i ) 2 \max \sum_{i=1}^{N}-\left(y_{i}-\omega^{T} x_{i}\right)^{2}=\min \sum_{i=1}^{N}\left(y_{i}-\omega^{T} x_{i}\right)^{2} maxi=1N(yiωTxi)2=mini=1N(yiωTxi)2

2)逻辑回归

  • Y服从参数为 ϕ \phi ϕ的伯努利分布,因此
    P ( Y , ϕ ) = ϕ Y ( 1 − ϕ ) ( 1 − Y ) = e Y log ⁡ ( ϕ ) + ( 1 − Y ) log ⁡ ( 1 − ϕ ) = e ( Y log ⁡ ( ϕ / ( 1 − ϕ ) ) + log ⁡ ( 1 − ϕ ) ) P(Y,\phi) = \phi ^ {Y}(1-\phi)^{(1-Y)}=e^{Y\log(\phi)+(1-Y)\log(1-\phi)}=e^{(Y\log(\phi/(1-\phi))+\log(1-\phi))} P(Y,ϕ)=ϕY(1ϕ)(1Y)=eYlog(ϕ)+(1Y)log(1ϕ)=e(Ylog(ϕ/(1ϕ))+log(1ϕ))
    显然, b ( Y ) = 1 b(Y)=1 b(Y)=1, T ( Y ) = Y T(Y)=Y T(Y)=Y η = log ⁡ ( ϕ / ( 1 − ϕ ) ) \eta=\log(\phi/(1-\phi)) η=log(ϕ/(1ϕ))。逻辑回归假设分布参数为 η = ω T X \eta=\omega^TX η=ωTX。可以推导得到
    ϕ = 1 1 + e − η \phi=\frac{1}{1+e^{-\eta}} ϕ=1+eη1
    显然, ϕ ( η ) \phi(\eta) ϕ(η)是一个sigmoid函数。
  • 利用似然估计 P ( Y , ϕ ) = e Y log ⁡ ( ϕ ) + ( 1 − Y ) log ⁡ ( 1 − ϕ ) P(Y,\phi)=e^{Y\log(\phi)+(1-Y)\log(1-\phi)} P(Y,ϕ)=eYlog(ϕ)+(1Y)log(1ϕ)可得
    log ⁡ P ( Y ∣ ϕ ) = log ⁡ ∏ i = 1 N ( e y i log ⁡ ( ϕ ) + ( 1 − y i ) log ⁡ ( 1 − ϕ ) ) = ∑ i = 1 N ( y i log ⁡ ( ϕ ) + ( 1 − y i ) log ⁡ ( 1 − ϕ ) ) \log P(Y|\phi)=\log \prod_{i=1}^N(e^{y_i\log(\phi)+(1-y_i)\log(1-\phi)})=\sum_{i=1}^N(y_i\log(\phi)+(1-y_i)\log(1-\phi)) logP(Yϕ)=logi=1N(eyilog(ϕ)+(1yi)log(1ϕ))=i=1N(yilog(ϕ)+(1yi)log(1ϕ))
    转成最小化的优化问题得
    min ⁡ − ∑ i = 1 N ( y i log ⁡ ( ϕ ) + ( 1 − y i ) log ⁡ ( 1 − ϕ ) ) \min-\sum_{i=1}^N(y_i\log(\phi)+(1-y_i)\log(1-\phi)) mini=1N(yilog(ϕ)+(1yi)log(1ϕ))
    刚好就是一个分类随处可以见的交叉熵损失函数了…
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值