LDA——主题模型_note

前提:

利用朴素贝叶斯的分析可以胜任许多文本分类问题
但是无法解决语料中***一词多义*** 和***多词一义***的问题
那么可以加入一个“主题”的方式,一定程度可以解决

  • 一个词可能被映射到多个主题中:一词多义
  • 多个词可能被映射到某个主题的概率很高:多词一义

主要内容

先验分布——共轭分布

在贝叶斯概率理论中,如果后验概率和先验概率满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。

             先验分布 + 数据(似然) = 后验分布

举个例子:
在对抛硬币的认知中,先验分布为:50次朝上,50次朝下。现在你再抛了3次,两次朝上,一次场下。于是你的后验分布编程52次朝上,51次朝下。现在你的后验分布中朝上的次数比朝下的次数多了。这个后验分布接着又变成你的新的先验分布,当你再抛4次,1次朝上,3次朝下时。你的后验分布又变成53次朝下,54次朝下,以此更新。

这里要求我们的后验分布可以作为下一次试验的先验分布,换言之,要采用共轭分布。而二项分布中,Beta分布就是二项分布的特例符合,共轭要求。

Beta分布——Dirichlet分布

上面抛硬币只是有两种情况,假如对于一个文本主题,可能有武侠、科幻、言情、现实等等多个主题呢?就要采用多维度的Beta分布,而超过二维的Beta分布,总体统称Dirichlet分布。

三层贝叶斯网络模型LDA

在这里插入图片描述
整体流程是:
1、基于α去采样这篇文档的主题分布,得到第m篇文档的第n个词它的主题编号。
2、基于β去采样各个主题的此分布。
3、由1中的主题编号找到2中主题分布的词向量,采样出一个词,得到第m篇文档第n个主题的词是什么。
接着循环上面操作,最后得到所有文档的所有词

在这里插入图片描述
第m篇文档的第n个词,它的主题变量
在这里插入图片描述
第m篇文档第n个主题的词是什么

Gibbs采样和更新规则

感兴趣可以移步到下面大牛博客
https://www.cnblogs.com/pinard/p/6867828.html

应用方向

  • 信息提取和搜索 (如:语义分析)
  • 文档分类/聚类、文章摘要、社区挖掘
  • 基于内容的图像聚类、目标识别(如: 以及其他计算机视觉应用)
  • 生物信息数据的应用

Reference:
https://www.cnblogs.com/pinard/p/6831308.html
https://www.bilibili.com/video/av75449781?from=search&seid=986913091899957655

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值