关闭

2.1 二元变量

标签: 机器学习模式识别PRML贝叶斯方法
438人阅读 评论(0) 收藏 举报
分类:

2.1 二元变量

1、基本概念

考虑一个二元随机变量 x ∈ {0,1} 。例如,x 可能描述了扔硬币的结果,x=1的概率被记作参数µ,因此:

p(x=1μ)=μ

p(x=0μ)=1μ

x 的概率分布因此可以写成:

Bern(xμ)=μx(1μ)1x

这被叫做伯努利分布。

我们构造如下关于 μ 的似然函数:

p(Dμ)=n=1Nμxn(1μ)1xn

可以通过最⼤化对数似然函数来估计 µ 的值:

lnp(Dμ)=n=1Nlnp(xnμ)=n=1N{xnlnμ+(1xn)ln(1μ)}

lnp(Dμ)的导数为0,就得到了最大似然的估计值:

μML=1Nn=1Nxn

这也被称为样本均值(sample mean)。如果我们把数据集⾥x = 1(正⾯朝上)的观测的数量记作m,那么我们可以把μML写成下⾯的形式:

μML=mN

然而最大似然的局限性也在于此,假设我们掷了3次硬币,并且全部正面朝上,那么我们得到的μML就是1,最大似然预测的结果是未来所有的实验结果都是正面朝上,这显然是不合理的。事实上,这是最大似然估计法过拟合的现象,在小规模数据集上常出现。
我们也可以求解给定数据集规模N的条件下,x = 1的观测出现的数量m的概率分布。这被称为⼆项分布(binomial distribution):

Bin(mN,μ)=(Nm)μm(1μ)Nm(2.1)

其中:

(Nm)=N!(Nm)!m!

2、Beta分布

为了解决最大似然法过拟合的现象,我们x需要引入一个关于μ的先验概率分布p(μ),为了找到这个先验分布,我们注意到似然函数是某个因子与μx(1μ)1x的乘积的形式,如果我们选择⼀个正⽐于μ(1μ)的幂指数的先验概率分布,那么后验概率分布(正⽐于先验和似然函数的乘积)就会有着与先验分布相同的函数形式,这个性质被叫做共轭性(conjugacy)。因此,我们把先验分布选择为Beta分布:

Beta(μa,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1(2.2)

其中,

Γ(x)=0ux1eudu

可以看出Beta分布是归一化的,即:

10Beta(μa,b)dμ=1

Beta分布的均值和方差为:

E(μ)=aa+b

var(μ)=ab(a+b)2(a+b+1)

参数a和b经常被称为超参数(hyperparameter),因为它们控制了参数的概率分布,以下是不同参数的Beta分布图像:

这里写图片描述

的后验概率分布现在可以这样得到:把Beta先验与二项似然函数(2.1)相乘,然后归一化。只保留依赖于的因子,我们看到后验概率分布的形式为:

p(μm,l,a,b)μm+a+1(1μ)l+b1

其中 l=Nm,即对应于硬币“反面朝上”的样本数量。
通过与公式(2.2)对比,得到它的归⼀化系数:

p(μm,l,a,b)=Γ(m+a+l+b)Γ(l+a)Γ(l+b)μm+a1(1μ)l+b1(2.3)

如果我们的目标是尽可能好地预测下⼀次试验的输出,那么我们必须估计给定观测数据集D的情况下,x的预测分布。根据概率的加和规则和乘积规则,这个预测分布的形式为:

p(x=1D)=10p(x=1μ)p(μD)dμ=10μp(μD)dμ=E(μD)

根据公式(2.3)得到:

p(x=1D)=m+am+a+l+b

当数据集无限大时,即m,l+,结果与最大似然估计相同,当数据集有限时,结果位于先验均值和最大似然估计之间。

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:18391次
    • 积分:511
    • 等级:
    • 排名:千里之外
    • 原创:27篇
    • 转载:0篇
    • 译文:6篇
    • 评论:4条
    文章分类
    最新评论