LDA模型简介、源码分析及实验

最新推荐文章于 2023-11-03 18:05:44 发布

人非木石_xst

最新推荐文章于 2023-11-03 18:05:44 发布

阅读量2.6k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shimin520shimin/article/details/48917517

版权

本文介绍了LDA模型，一种非监督机器学习技术，用于发现文档集合中的隐含主题分布。文章详细阐述了LDA的文档生成过程，展示了源码分析，包括模型初始化、训练过程，并提供了实验案例，通过处理Mashup和API的短文本数据，探讨了主题和词的分布。

摘要由CSDN通过智能技术生成

一概率主题模型简介

隐含狄利克雷分布（LatentDirichlet Allocation,LDA）[1]是一种文档生成模型，包含文档、主题和词三层结构。如图1所示，LDA假设每篇文档由若干隐含的主体组成，每个主题下有一系列与主题相关的词汇。当要生成一篇文章时，是通过以一定的概率选择某个主题，然后再以一定的概率选择主题下某个词语。LDA是一种非监督机器学习技术，可以用来发现大规模文档集合或者语料库中隐含的主题分布信息。与关键词匹配技术相比，LDA主题模型更关注文档或语料的语义信息，它将文档归纳出若干主题，然后根据文档主题计算相似性，因此，LDA主题模型是一种更抽象层次的匹配技术。

图1 文档主题分布、主题词分布举例

理解LDA模型主要理解图2所示文档生成的两个物理过程：

1）α—>θ—>z：以一定的概率生成文档中词的主题编号z；

2）β—>φ—>w：以一定的概率选择编号为z的主题下某个词。

如果一篇文档由n个词，则重复上述两个步骤n次，最终生成一篇文档。其中α与β是狄利克雷分布先验参数，人工调参。

图2 LDA文档生成模型的两个物理过程

两个物理过程对应到文档中的效果如图3 所示：

图3 LDA物理分解过程与文档的主题及词的对应关系

现实中，观测数据仅仅是文档，目的是推测文档的潜在主题结构，如图4所示，进一步说，已知的是左边的矩阵，要求解右边两个矩阵：

最低0.47元/天解锁文章

人非木石_xst

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
LDA模型简介、源码分析及实验

一概率主题模型简介隐含狄利克雷分布（LatentDirichlet Allocation,LDA）[1]是一种文档生成模型，包含文档、主题和词三层结构。如图1所示，LDA假设每篇文档由若干隐含的主体组成，每个主题下有一系列与主题相关的词汇。当要生成一篇文章时，是通过以一定的概率选择某个主题，然后再以一定的概率选择主题下某个词语。LDA是一种非监督机器学习技术，可以用来发现大规模文档
复制链接

扫一扫

专栏目录

人非木石_xst CSDN认证博客专家 CSDN认证企业博客

码龄13年

34: 原创

40万+: 周排名

130万+: 总排名

7万+: 访问

: 等级

777: 积分

26: 粉丝

57: 获赞

26: 评论

156: 收藏

私信

关注

热门文章

分类专栏

最新评论

ProgrammableWeb数据说明
zohnx: 博主您好！我是一名研一的学生，目前在做服务组合相关研究。请问您有最近几年的数据吗？可否请教您是如何从ProgrammableWeb上爬取数据。邮箱2430277985@qq.com，十分感谢您！
ProgrammableWeb数据说明
MnkKing: 博主您好！我是一名研一的学生，目前研究方向是服务推荐。不知道您有近几年的新数据吗，有的话发我一份吗？另外可否请教您是如何从ProgrammableWeb上爬取数据。邮箱919563185@qq.com，十分感谢您！
ProgrammableWeb数据说明
@(T_T)@: 博主您好！我是一名研一的学生，目前研究方向是服务推荐。不知道您有近几年的新数据吗，有的话发我一份吗？另外可否请教您是如何从ProgrammableWeb上爬取数据。邮箱1031947881@qq.com，十分感谢您！
分支限界法之最大团问题
莉萝爱萝莉: 博主写错了，1,4,5也是解空间，8可继续展开。其他写的不错，就是答案是错的
ProgrammableWeb数据说明
mzzmx: 您好，请问您有完整的数据集吗。870307694@qq.com是我的邮箱，谢谢。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。