LDA——主题模型_note

最新推荐文章于 2021-06-03 19:40:09 发布

凉风慕有信

最新推荐文章于 2021-06-03 19:40:09 发布

阅读量135

点赞数

分类专栏：自然语言处理算法基础知识文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_36118365/article/details/103702919

版权

算法基础知识同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

自然语言处理

3 篇文章 0 订阅

订阅专栏

文章目录

前提：
主要内容
应用方向

前提：

利用朴素贝叶斯的分析可以胜任许多文本分类问题
但是无法解决语料中***一词多义*** 和***多词一义***的问题
那么可以加入一个“主题”的方式，一定程度可以解决

一个词可能被映射到多个主题中：一词多义
多个词可能被映射到某个主题的概率很高：多词一义

主要内容

先验分布——共轭分布

在贝叶斯概率理论中，如果后验概率和先验概率满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。

             先验分布 + 数据（似然） = 后验分布

举个例子：
在对抛硬币的认知中，先验分布为：50次朝上，50次朝下。现在你再抛了3次，两次朝上，一次场下。于是你的后验分布编程52次朝上，51次朝下。现在你的后验分布中朝上的次数比朝下的次数多了。这个后验分布接着又变成你的新的先验分布，当你再抛4次，1次朝上，3次朝下时。你的后验分布又变成53次朝下，54次朝下，以此更新。

这里要求我们的后验分布可以作为下一次试验的先验分布，换言之，要采用共轭分布。而二项分布中，Beta分布就是二项分布的特例符合，共轭要求。

Beta分布——Dirichlet分布

上面抛硬币只是有两种情况，假如对于一个文本主题，可能有武侠、科幻、言情、现实等等多个主题呢？就要采用多维度的Beta分布，而超过二维的Beta分布，总体统称Dirichlet分布。

三层贝叶斯网络模型LDA

在这里插入图片描述
整体流程是：
1、基于α去采样这篇文档的主题分布，得到第m篇文档的第n个词它的主题编号。
2、基于β去采样各个主题的此分布。
3、由1中的主题编号找到2中主题分布的词向量，采样出一个词，得到第m篇文档第n个主题的词是什么。
接着循环上面操作，最后得到所有文档的所有词
注
在这里插入图片描述
第m篇文档的第n个词，它的主题变量

第m篇文档第n个主题的词是什么

Gibbs采样和更新规则

感兴趣可以移步到下面大牛博客
https://www.cnblogs.com/pinard/p/6867828.html

应用方向

信息提取和搜索（如：语义分析）
文档分类/聚类、文章摘要、社区挖掘
基于内容的图像聚类、目标识别（如: 以及其他计算机视觉应用）
生物信息数据的应用

Reference：
https://www.cnblogs.com/pinard/p/6831308.html
https://www.bilibili.com/video/av75449781?from=search&seid=986913091899957655

凉风慕有信

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LDA——主题模型_note

文章目录前提：主要内容先验分布——共轭分布Beta分布——Dirichlet分布三层贝叶斯网络模型LDAGibbs采样和更新规则应用方向前提：利用朴素贝叶斯的分析可以胜任许多文本分类问题但是无法解决语料中***一词多义*** 和***多词一义***的问题那么可以加入一个“主题”的方式，一定程度可以解决一个词可能被映射到多个主题中：一词多义多个词可能被映射到某个主题的概率很高：多词一义...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。