概率统计笔记:贝叶斯线性回归

1 引入

在贝叶斯框架下,当我们假设变量y_i, (i=1,2,\dots,n)服从正态分布y_i \sim N(ax_i+b,\tau_\epsilon^{-1})

根据共轭先验,我们知道:

  • 似然函数P(x|θ)为已知精度的正态分布时,它均值的共轭先验是正态分布(也就是此时均值的先验概率密度函数P(θ)和后验概率密度函数P(θ|x) 均为正态分布)
  • 似然函数P(x|θ)为已知均值的正态分布时,它精度的共轭先验是伽马分布(也就是此时均值的先验概率密度函数P(θ)和后验概率密度函数P(θ|x) 均为伽马分布)

概率统计笔记:共轭分布_UQI-LIUWJ的博客-CSDN博客_统计共轭

        所以我们先假设a,b和\tau_\epsilon^{-1}满足 (注:本来应该是ax_i+b满足 正态分布的,但是我们在单独研究a的分布的时候,可以把xi看作是一个常数(\frac{1}{n}\sum x_i)

  • a \sim N(\mu_1, \gamma_1^{-1})
  • b \sim N(\mu_2,\gamma_2^{-1})
  • \tau_\epsilon \sim Gamma(\alpha,\beta)

        复习:伽马函数的概率密度函数为

2 参数后验分布的求法

2.1 直接套用共轭先验公式

2.1.1 计算\tau_\epsilon 

 \tau_\epsilon \sim Gamma(\alpha,\beta)——>

(y_i-ax_i-b) \sim N(0,\tau_\epsilon)——>P(x_i,y_i|\tau_\epsilon)

所以后验概率 (\tau_\epsilon|x_i,y_i) \sim Gamma(\alpha+\frac{n}{2},\beta+\frac{\sum_{i=1}^n(x_i-\mu)^2}{2})

2.1.2 计算b

 b \sim N(\mu_2,\gamma_2^{-1})——>P(b)

(y_i-ax_i) \sim N(b,\tau_\epsilon)——>P(x_i,y_i|b)

所以后验概率(b|x_i,y_i) \sim N(\frac{\mu_2 \gamma_2+\tau_\epsilon \sum_{i=1}^n (y_i-ax_i)}{\gamma_2+n \tau_\epsilon},(\gamma_2+n \tau_\epsilon)^{-1})

2.1.3 计算a

 a \sim N(\mu_1, \gamma_1^{-1})——>P(a)

与此同时 我们稍做处理:

\frac{y_i-b}{x_i} \sim N(a,(\tau_\epsilon \times \frac{1}{n} \sum_{i=0}^n x_i^2 )) 【精度的倒数 ——方差是除以 xi^2 的均值,所以精度是乘以)

所以 (a|x_i,y_i) \sim N (\frac{\mu_1 \gamma_1 +\tau_\epsilon \frac{1}{n}\sum_{i=1}^n x_i^2 \sum_{i=1}^n\frac{y_i-b}{x_i}}{\gamma_1+n \tau_\epsilon \frac{1}{n}\sum_{i=1}^n x_i^2},(\gamma_1+n \tau_\epsilon \frac{1}{n}\sum_{i=1}^n x_i^2)^{-1})

这里我们做一个近似,\frac{1}{n}\sum_{i=1}^n x_i^2 \Rightarrow \frac{1}{n} n x_i^2=x_i^2

也即(a|x_i,y_i) \sim N (\frac{\mu_1 \gamma_1 +\tau_\epsilon x_i^2 \sum_{i=1}^n\frac{y_i-b}{x_i}}{\gamma_1+ \tau_\epsilon \sum_{i=1}^n x_i^2},(\gamma_1+ \tau_\epsilon \sum_{i=1}^n x_i^2)^{-1})

(a|x_i,y_i) \sim N (\frac{\mu_1 \gamma_1 +\tau_\epsilon \sum_{i=1}^n (y_i-b)x_i}{\gamma_1+ \tau_\epsilon \sum_{i=1}^n x_i^2},(\gamma_1+ \tau_\epsilon \sum_{i=1}^n x_i^2)^{-1})

 

2.2 手动推导

推导部分借鉴了浅谈贝叶斯张量分解(二):简单的贝叶斯线性回归模型 - 知乎 (zhihu.com)

 首先这三个前提是不变的:

  • a \sim N(\mu_1, \gamma_1^{-1})
  • b \sim N(\mu_2,\gamma_2^{-1})
  • \tau_\epsilon \sim Gamma(\alpha,\beta)

 2.2.1 求a的后验概率

P(a|X,Y,b,\tau_\epsilon, \mu_1,\tau_1) \propto P(X,Y|a,b,\tau_\epsilon, \mu_1,\tau_1) P(a|b,\tau_\epsilon, \mu_1,\tau_1)

去掉无关项(μ1,τ1对X,Y的取值没有作用;b,τε对a的取值没啥作用),也即

P(a|X,Y,b,\tau_\epsilon, \mu_1,\tau_1) \propto P(X,Y|a,b,\tau_\epsilon) P(a|\mu_1,\tau_1)

  • P(X,Y|a,b,\tau_\epsilon ) = P(x_1,y_1|a,b,\tau_\epsilon ) P(x_2,y_2|a,b,\tau_\epsilon ) \dots P(x_n,y_n|a,b,\tau_\epsilon )

=[(\tau_\epsilon)^{\frac{1}{2}} exp(-\frac{1}{2}\tau_\epsilon \sum_{i=1}^n(y_1-ax_1-b)^2)] \times [(\tau_\epsilon)^{\frac{1}{2}} exp(-\frac{1}{2}\tau_\epsilon \sum_{i=1}^n(y_2-ax_2-b)^2)] \times \dots \times [(\tau_\epsilon)^{\frac{1}{2}} exp(-\frac{1}{2}\tau_\epsilon \sum_{i=1}^n(y_n-ax_n-b)^2)]

= (\tau_\epsilon)^{\frac{n}{2}} exp(-\frac{1}{2}\tau_\epsilon \sum_{i=1}^n(y_i-ax_i-b)^2)

  • P(a|\mu_1,\tau_1)=\tau_1^{\frac{1}{2}} exp(-\frac{1}{2}\tau_1(a-\mu_1)^2)

而我们知道:似然函数P(x|θ)为已知精度的正态分布时,它均值的共轭先验是正态分布(也就是此时均值的先验概率密度函数P(θ)和后验概率密度函数P(θ|x) 均为正态分布)

概率统计笔记:共轭分布_UQI-LIUWJ的博客-CSDN博客_统计共轭

所以后验概率密度也为正态分布 

P(a|X,Y,b,\tau_\epsilon, \mu_1,\tau_1) =\eta_1^{\frac{1}{2}} exp(-\frac{1}{2}\eta_1(a-n_1)^2) \sim N(n_1,\eta_1)

我们考虑指数项

(-\frac{1}{2}\tau_\epsilon \sum_{i=1}^n(y_i-ax_i-b)^2)+ (-\frac{1}{2}\tau_1(a-\mu_1)^2) =(-\frac{1}{2}\eta_1(a-n_1)^2)

a^2的系数    \eta_1=\tau_1+\tau_\epsilon \sum_{i=1}^n x_i^2

a的系数     \eta_1 n_1=\tau_1 \mu_1+ \tau_\epsilon \sum_{i=1}^n (y_i-b)x_i

——>n_1=\frac{\tau_1 \mu_1+ \tau_\epsilon \sum_{i=1}^n (y_i-b)x_i}{\eta_1}=\frac{\tau_1 \mu_1+ \tau_\epsilon \sum_{i=1}^n (y_i-b)x_i}{\tau_1+\tau_\epsilon \sum_{i=1}^n x_i^2}

2.2.2 求b的后验概率

和a 类似

P(b|X,Y,a,\tau_\epsilon, \mu_2,\tau_2) \propto P(X,Y|a,b,\tau_\epsilon) P(b|\mu_2,\tau_2)

P(X,Y|a,b,\tau_\epsilon ) = (\tau_\epsilon)^{\frac{n}{2}} exp(-\frac{1}{2}\tau_\epsilon \sum_{i=1}^n(y_i-ax_i-b)^2)

P(b|\mu_2,\tau_2)=\tau_2^{\frac{1}{2}} exp(-\frac{1}{2}\tau_2(b-\mu_2)^2)

同样地,后验概率也是正态分布

P(b|X,Y,a,\tau_\epsilon, \mu_1,\tau_1) =\eta_2^{\frac{1}{2}} exp(-\frac{1}{2}\eta_2(b-n_2)^2) \sim N(n_2,\eta_2)

同样,我们也是看指数项

-\frac{1}{2}\eta_2(b-n_2)^2 = -\frac{1}{2}\tau_\epsilon \sum_{i=1}^n(y_i-ax_i-b)^2 + -\frac{1}{2}\tau_2(b-\mu_2)^2

b^2系数 \eta_2=n\tau_\epsilon +\tau_2

b系数 \eta_2 n_2 =\tau_\epsilon \sum_{i=1}^n (y_i-ax_i)+\tau_2 \mu_2

所以n_2 =\frac{\tau_\epsilon \sum_{i=1}^n (y_i-ax_i)+\tau_2 \mu_2}{\eta_2} =\frac{\tau_\epsilon \sum_{i=1}^n (y_i-ax_i)+\tau_2 \mu_2}{n\tau_\epsilon +\tau_2}

2.2.3 求τε的后验概率

P(\tau_\epsilon|X,Y,a,\tau_\epsilon, \alpha,\beta) \propto P(X,Y|a,b,\tau_\epsilon) P(\tau_\epsilon|\alpha,\beta)

P(X,Y|a,b,\tau_\epsilon ) = (\tau_\epsilon)^{\frac{n}{2}} exp(-\frac{1}{2}\tau_\epsilon \sum_{i=1}^n(y_i-ax_i-b)^2)

 似然函数P(x|θ)为已知均值的正态分布时,它精度的共轭先验是伽马分布(也就是此时均值的先验概率密度函数P(θ)和后验概率密度函数P(θ|x) 均为伽马分布)

所以P(\tau_\epsilon|X,Y)= \frac{\beta'^{\alpha'}}{\Gamma(\alpha')} (\tau_\epsilon)^{\alpha'-1} exp(-\beta' \tau_\epsilon)

\tau_\epsilon\frac{n}{2}+\alpha-1=\alpha'-1 ——> \alpha'=\frac{n}{2}+\alpha

指数项:(-\beta' \tau_\epsilon) =(-\beta \tau_\epsilon)+(-\frac{1}{2}\tau_\epsilon \sum_{i=1}^n(y_i-ax_i-b)^2)

\beta' =\beta+\frac{1}{2} \sum_{i=1}^n(y_i-ax_i-b)^2

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值