概率主题模型简介 Introduction to Probabilistic Topic Models

最新推荐文章于 2024-04-24 15:30:16 发布

满舅娘

最新推荐文章于 2024-04-24 15:30:16 发布

阅读量658

点赞数

本文链接：https://blog.csdn.net/mmqqyyqqyyq/article/details/87924694

版权

分享一下我老师大神的人工智能教程。零基础！通俗易懂！风趣幽默！还带黄段子！希望你也加入到我们人工智能的队伍中来！https://blog.csdn.net/jiangjunshow

概率主题模型简介 Introduction to Probabilistic Topic Models

此文为David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文，供大家参考。

摘要：概率主题模型是一系列旨在发现隐藏在大规模文档中的主题结构的算法。本文首先回顾了这一领域的主要思想，接着调研了当前的研究水平，最后展望某些有所希望的方向。从最简单的主题模型——潜在狄立克雷分配（Latent Dirichlet Allocation，LDA）出发，讨论了其与概率建模的联系，描述了用于主题发现的两种算法。主题模型日新月异，被扩展和应用许多领域，其中不乏有趣之处。我们调研发现很多扩展都弱化了LDA的统计假设，加入元数据（meta-data）进行文档分析，使用近似的模型分析如社会网络、图像和基因这类多样化的数据类型。我们在文章的最后给出了主题模型目前还未探索但很重要的方向，包括严格检验数据模型的方法，文本和其它高维数据可视化的新技术，以及如何从传统信息工程中的应用推广到更多科学应用。

1 引言

如今公开的知识日益以新闻、博客、网页、科学论文、书籍、图像、声音、视频和社交网络的形式被数字化存储，巨大的信息量同时也增加了人们寻找和发现自己所需要的知识的难度。人们需要新的计算工具以组织、搜索和理解这些庞大的信息量。现在的在线信息挖掘使用两种主要的工具——搜索和链接。向搜索引擎提交关键词就可以找到相关的文档和其它相链接的文档。这种与在线文档的交互方式虽然有效，但却丢失了某些信息。
假设所要搜索和寻找的文档由各类主题组成。这样，通过对文章进行“放大”和“缩小”就可以得到较具体或者较粗略的主题；在文档中就可以看到这些主题是如何随着时间变化，或者说是如何相互联系的。搜索文档就不只是通过关键词寻找，取而代之的是先找到相关的主题，然后再查找与这一主题相关的文档。
拿纽约时报所记载的历史举例。从较广的层次来看，报纸中的主题就对应着报纸各个版块——对外政策、国内事务、体育，再拿对外政策进行“放大”，就可以得到其不同方面——中国对外政策、中东冲突、英国与俄罗斯的关系。接下来，我们跟踪这些专题是如何随着时间演变的，例如过去50年里的中东冲突。如此这般探索就能找到与主题相关的原始文档。可见，这种主题结构是探索和理解文档的新窗口。
但以这种方法与电子文档进行交互是不现实的，因为随着网上文本的数量越来越多，单单仅靠人力已经无法全部阅读和研究所有的文本。由此，概率主题建模应运而生。机器学习领域的研究人员们开发出了一套旨在发现和标记大规模文档的主题信息的算法。主题建模算法是一种统计方法，它通过分析原文本中的词以发现蕴藏于其中的主题，主题间的联系，以及主题随时间的演变（就比如后面图3，通过分析耶鲁法律找到主题），而且不需要事前对文档进行标记。也就是说，人力所无法完成的文档标记，主题建模算法能够进行组织和归纳。

2 潜在狄立克雷分配

潜在狄立克雷分配（LDA）是最简单的主题模型，其基础是文档是由多个主题构成的。如图1所示，《Seeking Life’s Bare(Genetic) Necessities》是一篇对基因数量进行数据分析的文章（基因是有机体赖以进化的基础）。

图1：潜在狄立克雷分配的直观现象。如图左所示，假设主题是词语上的概率分布；图右是主题直方图。从直方图到文章的词的过程是这样的：首先随机产生一个主题直方图，然后选择其中一主题，最后从该主题对应的主题分布中选择一个词。这里的主题和主题直方图只作说明之用，与文章其实并不相匹配。相匹配的主题见图2。

文章中不同的词被高亮在不同的颜色。如“computer”和“prediction”之类有关数据分析的词以蓝色标记；如“life”和“organism”之类关于进化生物学的词以粉红色标记；如“sequenced”和“genes”之类有关遗传学的词以黄色标记。将所有词语进行这样的标记，并剔除“and”、“but”和“if”这类包含极少主题内容的词语后可以发现，这篇文章由不同主题以不同的比例组成，更进一步地看，多个主题可以帮助人们在一堆科技论文中发现这篇文章。
建立在文档集合上的统计模型LDA就试图描述上述直观的现象。LDA可以看作是一个文档产生的过程（2.1节将具体解释概率模型LDA）。形式化地定义主题是固定的词语的概率分布。例如，“遗传学”主题中“genes”的概率就相当高，类似地，“进化生物学”主题中“life”的概率也相对较高。假设所有的主题在文档产生之前就已经产生且指定。生成文档（或者说生成文档中的词）可以看成是如下两个过程：