一、LAS
1.向量空间模型通过计算文档向量间的相似度来衡量两个文档之间的相关性,常用的相似度为(夹角)余弦相似度。
2.LSA的核心在于将秩r的词项-文档矩阵C进行SVD分解,并寻求词项-文档矩阵的k秩逼近Ck 此时我们可以说,在进行潜在语义分析之前,文档被隐含表示成r维空间中的向量,而在潜在语义分析之后,文档被表示为k维空间中的向量,也就是潜在语义空间中的向量,向量的维数缩减为k维。
维数k可以被解释为隐含在文档集合中的话题数量,因此LSA可以被视作一种话题模型
3. LSA要点:
(1) 基于词(项)-文档矩阵归纳语义信息
(2) 基于维数缩减归纳语义信息
(3) 文档和词(项)被视作欧式空间中的点进行计算
二、概率话题模型
1. 混合模型(mixture model),分布表示为若干部件分布按照一定的比例进行组合。
(1) 文档是关于话题的分布, 不同文档拥有不同的话题比例p(z)。
(2) 话题是定义在词表上的概率分布p(w|z),不同的话题是定义在词表上的不同分布,与LSA不同,话题有着直观的物理解释。
话题模型是生成模型,文档是话题模型规定的概率过程的产物
(1) 对每一个文档,首先选择一个话题分布p(z)
(2) 对文档中的每一个词位,按照话题分布p(z)选择一个话题
(3) 按照话题-词分布p(w|z)选择一个词
• 在话题模型中,文档中每个词都对应着一个隐含的话题,这些隐含的话题可以通过统计推断的技术从大量的文档集合中提取得到。
2.pLSA是一种概率话题模型,LDA可视作是对pLSA的改进
– 文档视作话题的混合模型
– 话题视作词的不同分布