机器学习面试必知:学生t分布的神奇之处

39 篇文章 1 订阅
23 篇文章 1 订阅

Gamma分布
G a m ( λ ∣ a , b ) = 1 Γ ( a ) b a λ a − 1 e x p ( − b λ ) Gam(\lambda |a,b)=\frac{1}{\Gamma (a)}b^{a}\lambda ^{a-1}exp(-b\lambda) Gam(λa,b)=Γ(a)1baλa1exp(bλ)

高斯分布的精度的共轭先验是Gamma分布。如果我们有一个一元高斯分布 N ( x ∣ u , τ − 1 ) N(x|u,\tau^{-1}) N(xu,τ1)和一个Gamma先验分布 G a m ( τ ∣ a , b ) Gam(\tau|a,b) Gam(τa,b),我们把精度积分出来,我们可以得到x的边缘分布 p ( x ∣ u , a , b ) = ∫ 0 ∞ N ( x ∣ u , τ − 1 ) G a m ( τ ∣ a , b ) d τ p(x|u,a,b)=\int _{0}^{\infty}N(x|u,\tau^{-1})Gam(\tau|a,b)d\tau p(xu,a,b)=0N(xu,τ1)Gam(τa,b)dτ我们定义新的参数 v = 2 a v=2a v=2a λ = a b \lambda=\frac{a}{b} λ=ba, p ( x ∣ u , a , b ) p(x|u,a,b) p(xu,a,b)变成 S t ( x ∣ u , v , λ ) = Γ ( v + 1 2 ) Γ ( v 2 ) ( λ π v ) 1 2 [ 1 + λ ( x − u ) 2 v ] − v + 1 2 St(x|u,v,\lambda)=\frac{\Gamma(\frac{v+1}{2})}{\Gamma(\frac{v}{2})}(\frac{\lambda}{\pi v})^{\frac{1}{2}}[1+\frac{\lambda (x-u)^{2}}{v}]^{-\frac{v+1}{2}} St(xu,v,λ)=Γ(2v)Γ(2v+1)(πvλ)21[1+vλ(xu)2]2v+1这就是学生t分布。参数 λ \lambda λ有时被称为t分布的精度,即使它不等于方差的倒数。参数 v v v被称为自由度。当 v = 1 v=1 v=1时,即是柯西分布;当趋向于无穷大时就变成了高斯分布 N ( x ∣ u , λ − 1 ) N(x|u,\lambda^{-1}) N(xu,λ1)。从积分式子中可以看出,学生t分布可以这样通过将无限多个同均值不同精度的高斯分布相加的方式得到。我们可以用matlab来验证:

x=-4:0.01:4; y1=tpdf(x,1)这样生成了一个t分布,运用matlab自带的曲线拟合工具去拟合
在这里插入图片描述我们发现只要3个高斯分布相加就能得到一个拟合度很好的曲线。

我们可以看到学生t分布相比于高斯分布来说通常有着比高斯分布更长的拖尾。

x=-4:0.01:4; y1=tpdf(x,1); y4=pdf('Normal',x,0,1) plot(x,y1,'r-',x,y4,'b-')在这里插入图片描述红线是学生t分布(自由度为1,所以是柯西分布),蓝线是高斯分布(自由度为无穷大的学生t分布)。

更长的拖尾这就赋予了学生t分布一个重要的性质: 鲁棒性。下图对比了高斯分布和t分布(可以用EM算法求得)的最大似然解。在这里插入图片描述
可以看到少量的离群点对于t分布的影响要远远小于高斯分布。这很好地解释了为什么回归的最小平方方法并不具有鲁棒性,因为它对应于高斯分布下的最大似然解。而让回归模型基于一个长拖尾的概率分布例如t分布,我们可以得到一个更具有鲁棒性的模型。

  • 3
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值