概率分布
1.离散变量
1.1伯努利分布
伯努利分布,进行一次伯努利实验,如投掷一次硬币,
x=1
代表正面,其概率为
μ
,
x=0
代表反面,其概率为
1−μ
。
期望为
方差为
当观察到结果序列为 D={x1,x2,x3,...,xn}
伯努利实验:伯努利试验是在同样的条件下重复地、相互独立地进行的一种随机试验。其特点是该随机试验只有两种可能结果:发生或者不发生。然后我们假设该项试验独立重复地进行了 n 次,那么我们就称这一系列重复独立的随机试验为
n 重伯努利试验。
1.2二项分布
二项分布,进行
K
次重复的相互独立的伯努利实验,如相互独立地掷
期望为
方差为
n 重伯努利实验和二项分布不同的点为,二项分布研究的是总和,而计算某个具体实验结果时需要用到伯努利分布结合乘法原理。
1.3多项式分布
多项式分布,也就是将二项分布推广到多种结果,也进行K次实验,如投掷骰子。结果是1有
当进行一次实验有
m
个结果时,使用向量表示概率和结果。
例如投掷一个六面均匀的骰子概率为
μ={16,16,16,16,16,16}T
,当结果为4时表示为
x={0,0,0,1,0,0}T
。
2.连续变量
2.1 beta分布
beta分布,二项分布的共轭先验分布。
共轭先验:后验概率分布的函数形式和先验概率分布的函数形式相同。后验分布函数与似然函数和先验分布函数的乘积成正比。
beta分布的形式为
2.2 狄利克雷分布
狄利克雷分布,多项式分布的共轭先验分布。
狄利克雷分布的形式为
2.3 高斯分布
3 极大似然估计
极大似然估计是在给定模型(含有未知参数)和样本集的情况下用来估计模型参数,其思想就是找到最佳的参数,使得样本发生的几率最大。
极大似然估计的过程为:
1. 写出似然函数
2. 似然函数取对数
3. 似然函数求导数
4. 求解得出参数
假设进行
K
次相互独立的实验,每一次实验结果有
似然函数为:
当我们进行三次投掷骰子实验,得到的全是6,那么根据极大似然估计我们可以得到6的概率为1,其余的概率为0,这显然和我们的常识所相悖,这样就引出了最大后验估计
4 最大后验估计
最大后验估计和极大似然估计不一样的点在于,当模型中的参数服从某一分布,也就是具有了一定的先验知识,对似然结果进行修正后的结果,同样也是求出参数的一个具体的值
似然函数, p(x|μ) ,用参数的函数表示结果的概率,就是似然函数。
先验概率, p(μ) ,已知模型参数服从某一分布,则具有先验概率,也代表先验知识。
后验概率, p(μ|x) ,表示已经知道结果的情况下,推算模型参数出现的概率
后验概率 ∝ 似然函数 ∗ 先验概率
根据贝叶斯公式
5 贝叶斯估计
贝叶斯估计其实并不是估计一个原有的值,而是估计一个新样本发生的概率,根据贝叶斯公式
还是用二项分布和Beta分布举例,后验概率正比于似然函数和先验概率的乘积
所以根据共轭先验,得到后验分布是 μ∼Beta(x+α,K+β−x) ,这里凑了一个标准化项 1Beta(α,β) 使得积分为1,再套用上面的公式