主题模型LDA

主题模型主题建模或主题抽取 在机器学习和自然语言处理等领域,用来在一系列文章中发现抽象主体的一种统计模型;主题抽取的目的:面对浩如海的文章,怎么能够把相似的文章聚合起来,并且提取描述聚合后主题的重要关键词;主题抽取的方法:LDA(Latent Dirichlet allocatioin,隐含狄利克雷分布;LDA: 无监督学习; 软聚类(聚类到多个簇,聚类一般聚类到一个簇) 降维(
摘要由CSDN通过智能技术生成

主题模型

主题建模或主题抽取
在机器学习和自然语言处理等领域,用来在一系列文章中发现抽象主体的一种统计模型;

主题抽取的目的:面对浩如海的文章,怎么能够把相似的文章聚合起来,并且提取描述聚合后主题的重要关键词;

主题抽取的方法:LDA(Latent Dirichlet allocatioin,隐含狄利克雷分布;

LDA:
无监督学习;
软聚类(聚类到多个簇,聚类一般聚类到一个簇)
降维(文档的词高维–》主题分布 较低维)

主题模型的理解

1、多个文档,D1,D2,D3,….Dm; 每个文档中中的词,N1,N2,N3,N4…Nm;

==》主题模型不单单求出文档中每个词频率,从而得出文档的类别;

2、主题模型在文档和词之间又加入了一层:主题;即文档中每个词背后有一个主题,可以根据该主题得出词;

3、有k个主题,每个主题中有多个关键词(主题的词分布)

为什么加入主题?

在文档和词之间加入主题,可以更好的解决一词多义和多词一义的问题:

一个词被映射到多个主题中–一词多义;
多个词被映射到某个主题的概率很高–多词一义;

关键

文档的主题分布–》根据文档中的各个词,得出文档在各个主题上的分布;文档的词是高维的,主题个数相对低维的=

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值