LDA主题模型

LDA(Latent Dirichlet Allocation)是一种主题模型,用于推测文档主题。本文详细介绍了LDA的原理,包括Unigram Model的频率和贝叶斯视角,以及LDA如何改进PLSA模型,加入Dirichlet分布。LDA在文本建模中起到关键作用,常用于主题聚类、文本分类等任务。
摘要由CSDN通过智能技术生成

一、LDA主题模型

在之前利用文本相似度解决推荐系统冷启动问题的博文中已简单介绍了LDA主题模型的使用,现在来介绍一下LDA主题模型的原理。
Latent Dirichlet Allocation模型简称为LDA,2003年由Blei, David M.、Ng, Andrew Y.、Jordan提出,用来推测文档的主题,在机器学习领域主题模型中占有非常重要的地位。
LDA将文档中每篇文档的主题以概率分布的形式表示出来,通过分析并抽取出这些文档的主题分布,便可根据这些文档的主题分布进行主题聚类或文本分类。

二、主题模型文本建模原理

我们将日常生活中产生的每一个文本存储为一篇文档,那么每篇文档就是有序的词的序列:在这里插入图片描述
在这里插入图片描述
为了了解语料库中的词序列是如何生成的,我们需要进行统计文本建模。由于我们观察到的只是词序列构成的语料,因此在统计文本建模中,有两个核心的问题:
① 模型中有哪些参数;
② 产生词序列有哪些规则。
为了回答上面两个问题,我们先从最简单的Unigram Model入手。

1、Unigram Model之频率视角

假设词典中有一共有V个词在这里插入图片描述,Unigram Model认为:
对于词典中的V个词在这里插入图片描述,每个词的概率为在这里插入图片描述,我们将词序列产生的过程记为在这里插入图片描述
在这里插入图片描述
因此,对于一篇文档在这里插入图片描述,该文档被生成的概率就是

而文档和文档之间我们认为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值