1 复习
Jensen不等式:
假设f为凸函数:
- 若,则
- 若,则
- 综上所述:
2 推导
问题:若给定一组样本,已知它们来自于高斯分布,试估计参数。
过程分析:高斯分布的概率密度函数:,将的样本值代入,得到:
,然后化简对数似然函数
讨论:目标函数为,然后对参数分别求偏导,得到:,即样本的均值是高斯分布的均值,样本的伪方差是高斯分布的方差。
3 高斯混合模型(GMM模型)
随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为,第i个高斯分布的均值为,方差为。若观测到随机变量X的一系列样本,试估计。
首先,建立目标函数
由于该对数函数比较复杂,无法直接求导。所以,分成两部分进行:
step1:估算数据来自哪个组份。
step2:估计每个组份的参数
4 EM算法的提出
假定有训练集,包含个独立样本,希望从中找到该组数据的模型的参数。
step1:取对数似然函数
step2:提出问题:不方便求参数估计?
step3:利用Jensen不等式
说明最后的不等式:
忽略求和,令,不等式变为
即
为了使等号成立:
EM算法推导高斯分布:
E-step:
第i个样本属于第j个组份的概率
M-step:
对均值求偏导:
高斯分布求得均值:
同上面求均值做法,求得高斯分布的偏差:
多项分布的参数
拉格朗日乘子法
上式的具体推导:
由求偏导公式,化简得:
将j展开再合并得到:
因为
所以
总结:
6 pLSA模型
基于概率统计的pLSA模型(概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型系数。
D——文档,Z——主题(隐含类别)W——单词
表示文档的出现概率。
表示文档中主题的出现概率。
表示给定主题出现单词的概率。
每个主题在所有词项上服从多项分布,每个文档在所有主题上服从多项分布。
整个文档的生成过程是:先以的概率选中文档,然后以的概率选中主题,最后以的概率产生单词。
观测数据为时,主题是隐含变量。
的联合分布为:,
令在中出现的次数
所以
对其取对数:
7 模型选择的准则
模型选择问题主要是寻找平衡模型的复杂性和模型对数据集描述能力之间的平衡,有以下两种。
L为模型下的样本的似然函数值,k为模型中位置参数的个数(维度),n为样本个数。
AIC:最小信息量准则衡量模型拟合优良性的标准,AIC越小,模型越简洁,模型越好。
BIC:贝叶斯信息准则,BIC越小,模型越好。BIC弥补了AIC的不足,当样本数量过多时,对于模型参数个数的惩罚项k,因为加入了考虑了样本数量,从而可以避免模型精度过高造成模型复杂度过高。