LDA模型简介、源码分析及实验

本文介绍了LDA模型,一种非监督机器学习技术,用于发现文档集合中的隐含主题分布。文章详细阐述了LDA的文档生成过程,展示了源码分析,包括模型初始化、训练过程,并提供了实验案例,通过处理Mashup和API的短文本数据,探讨了主题和词的分布。
摘要由CSDN通过智能技术生成

一  概率主题模型简介

    隐含狄利克雷分布(LatentDirichlet Allocation,LDA)[1]是一种文档生成模型,包含文档、主题和词三层结构。如图1所示,LDA假设每篇文档由若干隐含的主体组成,每个主题下有一系列与主题相关的词汇。当要生成一篇文章时,是通过以一定的概率选择某个主题,然后再以一定的概率选择主题下某个词语。LDA是一种非监督机器学习技术,可以用来发现大规模文档集合或者语料库中隐含的主题分布信息。与关键词匹配技术相比,LDA主题模型更关注文档或语料的语义信息,它将文档归纳出若干主题,然后根据文档主题计算相似性,因此,LDA主题模型是一种更抽象层次的匹配技术。


图1  文档主题分布、主题词分布举例

    理解LDA模型主要理解图2所示文档生成的两个物理过程:

    1)α—>θ—>z:以一定的概率生成文档中词的主题编号z;

    2)β—>φ—>w:以一定的概率选择编号为z的主题下某个词。

    如果一篇文档由n个词,则重复上述两个步骤n次,最终生成一篇文档。其中α与β是狄利克雷分布先验参数,人工调参。


图2  LDA文档生成模型的两个物理过程


    两个物理过程对应到文档中的效果如图3 所示:


图3  LDA物理分解过程与文档的主题及词的对应关系


    现实中,观测数据仅仅是文档,目的是推测文档的潜在主题结构,如图4所示,进一步说,已知的是左边的矩阵,要求解右边两个矩阵:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值