LDA主题词模型

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,包含词、主题、文档三层结构。它是非监督学习技术,用于识别海量文档中的潜在主题信息。LDA通过文档-词语矩阵进行训练,学习出主题-词语矩阵和文档-主题矩阵。生成模型包括unigram model、Mixture of unigram和LDA,其中LDA能生成包含多个主题的文档,更符合实际需求。
摘要由CSDN通过智能技术生成

最终确定去360做安全网关部分的自然语言处理环节,在此感谢360和马主管的赏识!未来2个月的学习内容应该跟NLP和C++密切相关。


LDA主题词模型探析

参考博主:http://www.tuicool.com/articles/E7RVFzU  内容再自行整理得来,侵权删。


LDA是什么?

    LDA(Latent Dirichlet Allocation 文档主体生模型)是一种文档主体生成模型,也成为一个三层贝叶斯概率模型,包含词、主体、文档这三层结构。所谓生成模型,就是说,一篇文章的每个词都是通过以一定的概率选择了一个主题,并从这个主题中以一定的概率选择这个词语这个一个过程得到的。

    LDA是一种非监督学习技术,可用来识别海量文档中潜藏的主题信息。它采用了词袋(bag of words)的方法,这个方法将一个文档识别成一个词频向量,将文字信息转化成数学信息。


LDA作用

    传统判断两个文档相似性的办法是查看两个文档共同出现的单词的多少,如TF-IDF等,但这种办法没有考虑到文字背后的语义关联,有可能两个文档说的是相似的内容但并没有词语上的交集,举个例子:

    “今天大盘挺不错啊”

    “我买进了一万股”

    可以看到上面的两个文本并没有任何词语交集,但是他们却说的都是“股票”这个话题,如果按照传统的方法看着两个文档,肯定是毫无关联的,所以在判断文档相关性的时候需要考虑一下文档的语义,主题模型是语义挖掘中比较好的手段,而LDA又是其中比较有效的模型。

    “主题”又是什么的,形象来说,主题像是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。这些单词是依据条件概率放进这个桶中的。

    怎样才能生成主题,对文章的主题应该如何分析,这是主题模型应该探讨的问题。

    生成模型是说,我们认为一篇文档的每个词都是通过一定概率选择了一个主题,并从这个主题中以一定概率选择某个词语,那么在某个文档中出现该词语的概率为:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值