NLP——Topic Modelling

LDA是一种主题建模方法,用于发现文档中的潜在主题。它假设文档由多个主题混合生成,每个主题由特定的词分布定义。LDA通过采样方法学习主题-词和文档-主题分布,常用于文本挖掘和自然语言处理任务,如文档分类和情感分析。


在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

主题建模(Topic Modeling)是一种统计模型,用于在一组文档中发现抽象的"主题"。主题可以看作是一种潜在的变量,能够捕获文档中的主要讨论点。

比如,你有一堆新闻文章,通过主题建模,可能可以发现一些主题,如"国际政治",“经济”,“体育”,“娱乐"等。每个主题都由一组与之相关的关键词定义。例如,“体育”主题可能包括"篮球”,“足球”,"奥运会"等词语。

最常见的主题建模方法是潜在Dirichlet分配(LDA),它假设每个文档都是从多个主题的混合体中生成的,而每个主题则是从一组特定的词语分布中生成的。

主题建模在文本挖掘、自然语言处理和信息检索等领域有广泛的应用,可以用来探索大规模文本集合的隐藏结构,帮助我们更好地理解和解释文本数据。

A Brief History of Topic Models

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Latent Dirichlet Allocation (LDA)潜在狄利克雷分布

  • 一种用于主题模型的生成概率模型,通过对文档中的词汇进行概率分布分析,从而发现文档中的潜在主题。
    在这里插入图片描述

核心思想

在这里插入图片描述
Latent Dirichlet Allocation(LDA)是一种主题模型,它允许观察到的一组文档可以被解释为潜在主题的集合。 这是一种无监督的生成模型,使我们能够确定由哪些主题生成了一篇特定的文档,并能确定每个主题的词分布。

LDA的基本思想是:

  • 每一篇文档都可以被看作是一系列主题的混合,而每一个主题又可以被看作是一系列词的混合。 例如,如果我们有一个关于体育的文档,那么可能的主题包括"篮球"、“足球”、“棒球"等,每个主题都有各自的词汇,如"投篮”、“射门”、"跑垒"等。

  • LDA算法通过反复迭代来学习 主题-词分布文档-主题 分布,最终可以为每个文档提供一个主题分布(告诉我们这篇文档关于哪些主题)并为每个主题提供一个词分布(告诉我们每个主题包含哪些关键词)。

LDA广泛用于自然语言处理、信息检索和机器学习等领域,用于文档分类、情感分析、推荐系统等任务。

在这里插入图片描述

LDA input

在这里插入图片描述

LDA output

在这里插入图片描述

LDA 如何学习

在这里插入图片描述

Sampling-based mothods 基于采样的方法

在这里插入图片描述

  • 蓝色的表格用于统计 topic-word 共同出现的情况
  • 绿色的表格用于统计 document-topic 共同出现的情况
  • 蓝色的表格中的数据一开始都被初始化为 0.01,绿色的则都是 0.1
  • 这些初始化的数据被称为 prior 先验
  • 之所以以这样的方式初始化,是因为我们为了 smooth 结果,避免在计算的过程中出现 0
  • 看蓝色表格左上角的 mouse-t11.01 其实 1.01 = 1 + 0.01,除了初始值之外,因为在橙色的表格中, mouset1 共同出现了 1 次,所以这里得到了 1.01
  • 同样的 moust-t3=2.01
  • 其他的表格单元也都如法炮制
  • 填完了蓝色和绿色的表格之后,进行下一步
  • 那就是遍历所有的 word token 然后 sample 一个新的 topic,这个步骤是根据这两个表格来决定的:
    在这里插入图片描述
  • 其中 P ( t i ∣ w ) P(t_i|w) P(tiw
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

暖仔会飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值