NLP ---LDA 主题模型

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,用于识别自然语言处理中的主题。它包含词、主题和文档三层结构,通过文档到主题的多项式分布和主题到词的多项式分布生成文档内容。LDA的构建流程包括相关概念如瑞利熵,以及一系列步骤来将文档-词汇矩阵转换为文档-主题和主题-词汇分布。
摘要由CSDN通过智能技术生成

一、LDA 简介

在自然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),LDA(Latent Dirichlet Allocation,简称LDA)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含主题文档三层结构。
所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
LDA的目的:识别主题,即把文档—词汇矩阵变成文档—主题矩阵(分布)主题—词汇矩阵(分布)

二、LDA 构建流程

2.1 相关概念

(1)瑞利熵相关概念

2.2 LDA步骤

对于语料库中的文档,LDA定义了如下三个步骤:

step1:对每一篇文档,从主题分布中随机抽取一个主题
step2:根据抽取的主题抽取一个单词,并计算瑞利商
step3:重复上
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值