NLP之主题模型

最新推荐文章于 2023-12-07 00:56:26 发布

lili安

最新推荐文章于 2023-12-07 00:56:26 发布

阅读量1.9k

点赞数

本文链接：https://blog.csdn.net/likeyou1314918273/article/details/106019009

版权

一、主题模型

　两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。对语义关联的挖掘，可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器：主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。

假设有两个句子，我们想知道它们之间是否相关联：

　　第一个是：“乔布斯离我们而去了。”

　　第二个是：“苹果价格会不会降？”

　　如果由人来判断，我们一看就知道，这两个句子之间虽然没有任何公共词语，但仍然是很相关的。这是因为，虽然第二句中的“苹果”可能是指吃的苹果，但是由于第一句里面有了“乔布斯”，我们会很自然的把“苹果”理解为苹果公司的产品。事实上，这种文字语句之间的相关性、相似性问题，在搜索引擎算法中经常遇到。例如，一个用户输入了一个query，我们要从海量的网页库中找出和它最相关的结果。这里就涉及到如何衡量query和网页之间相似度的问题。对于这类问题，人是可以通过上下文语境来判断的。但是，机器可以么？

　　在传统信息检索领域里，实际上已经有了很多衡量文档相似性的方法，比如经典的VSM（向量空间模型）模型。然而这些方法往往基于一个基本假设：文档之间重复的词语越多越可能相似。这一点在实际中并不尽然。很多时候相关程度取决于背后的语义联系，而非表面的词语重复。

　　那么，这种语义关系应该怎样度量呢？事实上在自然语言处理领域里已经有了很多从词、词组、句子、篇章角度进行衡量的方法。本文要介绍的是其中一个语义挖掘的利器：主题模型。

主题模型是什么？

主题模型，顾名思义，就是对文字中隐含主题的一种建模方法。

在这里，我们先定义一下主题究竟是什么。主题就是一个概念、一个方面。它表现为一系列相关的词语。比如一个文章如果涉及到“百度”这个主题，那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现，而如果涉及到“IBM”这个主题，那么“笔记本”等就会出现的很频繁。如果用数学来描述一下的话，主题就是词汇表上词语的条件概率分布 。与主题关系越密切的词语，它的条件概率越大，反之则越小。

通俗来说，一个主题就好像一个“桶”，它装了若干出现概率较高的词语。这些词语和这个主题有很强的相关性，或者说，正是这些词语共同定义了这个主题。对于一段话来说，有些词语可以出自这个“桶”，有些可能来自那个“桶”，一段文本往往是若干个主题的杂合体。

二、主题模型的工作原理

我们用生成模型的视角来看文档和主题这两件事。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么，如果我们要生成一篇文档&#x

最低0.47元/天解锁文章

lili安

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
NLP之主题模型

一、主题模型　两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。对语义关联的挖掘，可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器：主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。假设有两个句子，我们想知道它们之间是否相关联：　　第一个是：“乔布斯离我们而去了。”　　第二个是：“苹果价格会不会降？”　　如果由人来判断，我们一看就知道，这两个句.
复制链接

扫一扫