从上个学期开始就有接触到LDA主题模型,因为当时是需要做一个建筑领域的数据处理,然后导师的选择是用LDA来做,直到最近要构建知识图谱了,我打算把之前的资料做一个梳理和总结。我们设想这样的一个场景,我们有好多的应聘者,他们每一个人都有着自己的简历,我们作为公司的HR我们只能通过简历上面的每一个特征来判断这个应聘者是否是我们想要的人才。好的,那么我们对应到LDA模型中就是,(求职者适合岗位-----文章主题)(简历------文档)(简历中的特征-----文档中的单词)。Latent Dirichlet Allocation-------无监督的贝叶斯模型-----典型的词袋模型,他认为一篇文档是由一组词构成的一个集合,词与词之间没有考虑顺序。每一个主题均可找出一个词代表。
所以对于LDA来说,他的核心公式就是
LDA生成过程:
(1)对于每一篇文档,从主题分布中抽取一个主题
(2)从上述被抽到的主题所对应的单词分布中抽取一个单词
(3)重复上述过程直到遍历文档中每一个单词。
到这里我相信已经有了一个对LDA整体的认识,但是对于贝叶斯学派来说,所有的概率分布不是确定的,也就是我们常说的后验概率=先验概率似然函数。为了使得我们的先验概率和后验概率能够具有相同的形式,也就是形成一条概率链(上一次的后验概率作为本次的先验概率),也就是我们听到的
LDA算法的学习总结加实践
最新推荐文章于 2024-01-16 22:13:31 发布
本文总结了LDA算法在建筑领域数据处理的应用,通过实例解释了LDA模型的工作原理,包括文档-主题和主题-单词的生成过程。介绍了如何利用Gibbs采样和变分推断EM算法求解主题分布,并展示了在建筑安全规范条例及电影评论数据上的应用效果,实现了良好主题区分。最后,阐述了预处理步骤,如结巴切词、去除停用词和计算TF-IDF权重。
摘要由CSDN通过智能技术生成