指导性问题:
(1)什么是混合模型?一般来说,如何计算从混合模型中观察特定单词的概率?这个概率表达式的一般形式是什么?
(2)混合模型的分量词分布的最大似然估计是什么样的?他们在什么意义上“协作”和/或“竞争”?为什么我们可以使用固定的背景词分布来强制发现的主题词分布,以减少它在常见的(通常是非内容的)词上的概率?
(3)EM算法的基本思想是什么? E步骤通常会做什么? M-step通常会做什么?在两个步骤中,我们通常应用贝叶斯规则?新兴经济体是否收敛到全球最大值?
(4)什么是PLSA?一个PLSA模型有多少个参数?这个数字是如何受到我们开采数据集大小的影响?我们如何调整标准的PLSA,将主题词分布上的优先考虑?
(5)LDA与PLSA有什么不同?两种模式共享什么?
关键短语和概念
在完成阅读和与讲座互动时,请注意以下关键术语或短语。 这些主题将帮助您更好地理解本模块中的内容。
关键术语:
(1)混合模型
(2)组件模型
(3)限制概率
(4)概率潜在语义分析(PLSA)
(5)期望最大化(EM)算法
(6)E步骤和M步骤
(7)隐藏的变量
(8)爬山
(9)本地最大值
(10)潜在狄利克雷分配(LDA)
一、概率主题模型之混合一元语言模型
1.概述
作用:去除背景词(功能词汇)
第一种情况是使用主题作为发行版来生成单词;
第二部分从背景上解释了这个词的不同用法。
在每一种情况下,它都是一个概率的乘积,选择一个特定的单词的概率乘以从这个分布中观察单词的概率。
混合模型中的一个词的概率是一个不同的单词生成方式的总和。选择该组件模型的概率的乘积乘以实际从模型的该部分观察数据点的概率。
混合模型:
混合模型的基本思想就是将这两个分布作为一个模型来检索。
提出问题:那我们如何解决参数呢
两种参数:一个是两个措辞的发行版,它们产生主题,另一个是每个主题的覆盖范围。
分析可能性函数:
将它退化到只有一个分布的特殊情况。可以很容易地验证,假设这两个中的一个是1.0,另一个是零。
混合模型比以前的模型更普遍,之前的模型只有一个分布。
小结:
1)数据只是一份文档;
2)两种Unigram语言模型的混合:
这个模型是一个混合模型,包含两个分量,两个单列LM模型,特别是 θd ,它表示文档d的主题;以及 θB ,它代表了一个背景话题,我们可以设置它来吸引普通单词,因为在这个模型中,普通单词会被赋予很高的概率。
3)这些参数可以统称为Lambda,还具有混合权重。
4)似然函数:它覆盖了文档中所有的单词,和以前完全一样。唯一的区别是,现在这里是一个和,而不是一个。
由于混合模型的存在,我们还必须引入一个概率来选择特定的分布分量。即用一个产品代替我们词汇中所有独特的单词,而不是让这个产品凌驾于文档中的所有位置。这种形式不同在于将唯一的词的一个交换律用于计算以后的最大似然估计。和往常一样,最大似然估计量只是为了找到最大似然函数的参数。
两种限制:1)主题概率和为1;2)模型选择和为1.
2.估计模型参数
回顾使用混合模型的原因:使用高频词公式筛掉背景词。
思路:假设背景词的 θB 已知,那么接下来就要求 θd ,使得已观测到的高频词达到概率最大。
观察混合模型的行为:
1)行为一:不同分布的竞争行为
由于两个限制,所以当背景词的 θB 的概率越高,那么对应的背景词的 θd 的概率越低。
(即当某一分布给某一词越高的概率,那么另一分布给这个词的概率越低。)
2)行为二:数据频率的响应——高频率词有高 P(“w”|θd)
首先观察两个文本单词的概率:一个概率为0.9,另一个概率为0.1。
接下来,开始向文档中添加更多的单词。那么只需将似然函数乘以附加项,就可以解释附加项。
当增加背景词的数量时,会使得 P("背景词"|θd )变大。而 P("功