LDA主题模型发展历程(1)

**

主题模型发展历程

**
首先从Unigram model谈起,基于Unigram model加入贝叶斯先验得到贝叶斯Unigram model,再基于SVD分解得到LSA模型,在LSA模型的基础上加入概率化的解释,就得到了PLSA,在PLSA的基础上加入先验化的分布就得到了LDA。

Unigram Model

clipboard.png
clipboard.png
clipboard.png

贝叶斯Unigram Model

对于以上模型,贝叶斯统计学派持有不同的意见,他们认为只假设上帝拥有一个固定的骰子不合理。在贝叶斯学派看来,一切参数都是随机变量,所以认为以上模型中的骰子不是唯一固定的,它也是一个随机变量。流程如下:

clipboard.png
clipboard.png

LSA

LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”。我们知道,在文档的空间向量模型中,文档被表示成由特征词出现概率组成的多维向量,可以对不同词项赋予不同的权重,在文本检索、分类、聚类问题中都得到了广泛应用,然而,向量空间模型没有能力处理一词多义和一义多词问题,例如同义词也分别被表示成独立的一维,计算向量的余弦相似度时会低估用户期望的相似度;而某个词项有多个词义时,始终对应同一维度,因此计算的结果会高估用户期望的相似度。
LSA方法的引入就可以减轻类似的问题。基于SVD分解,我们可以构造一个原始向量矩阵的一个低秩逼近矩阵,具体的做法是将词项文档矩阵做SVD分解

clipboard.png

其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值。然后把∑的r个对角元素的前k个保留(最大的k个保留), 后面最小的r-k个奇异值置0, 得到∑k;最后计算一个近似的分解矩阵

clipboard.png

则Ck在最小二乘意义下是的最佳逼近。由于∑k最多包含k个非零元素,所以Ck的秩不超过k。通过在SVD分解近似,我们将原始的向量转化成一个低维隐含语义空间中,起到了特征降维的作用。每个奇异值对应的是每个“语义”维度的权重,将不太重要的权重置为0,只保留最重要的维度信息,去掉一些信息“nosie”,因而可以得到文档的一种更优表示形式。

参考:
《LDA数学八卦》
https://blog.csdn.net/pipisor...

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值