Topic Modeling in Embedding Spaces 论文阅读

最新推荐文章于 2024-01-24 14:51:00 发布

Cry_Cry00

最新推荐文章于 2024-01-24 14:51:00 发布

阅读量867

点赞数

文章标签：机器学习 python

本文链接：https://blog.csdn.net/Cry_Cry00/article/details/107922601

版权

ETM（Embedded Topic Model）解决了LDA在大量词汇时面临的挑战，它是一个结合了主题建模和单词嵌入的模型。ETM通过在嵌入空间中表示主题和单词，保持了良好的预测性能，即使词汇量增加。它使用对数线性模型和变分推理，允许在大型语料库中有效处理主题分配，同时对停止词具有鲁棒性。ETM在文档完成任务和主题相关性评估中表现出色，特别适合处理大型词汇表。

摘要由CSDN通过智能技术生成

Topic Modeling in Embedding Spaces 论文

The Embedded TopicModel

Code for this work can be found at https:// github.com/adjidieng/ETM.
论文地址：https://arxiv.org/pdf/1907.04907.pdf
LDA是一个功能强大的模型，应用广泛。然而，它面临着一个普遍存在的技术问题，它在面对大量词汇时失败了。从业者必须严格删减他们的词汇表，也就是那些既有预测性又有可解释性的词汇模型。这通常是通过删除最常出现的单词来实现的。在大型收藏中，这种修剪可能会删除重要术语并限制模型的范围。大量词汇的主题建模问题在研究文献中尚未得到解决。
作为一个主题模型，它发现了文本的一个可解释的潜在语义结构；作为一个单词嵌入，它提供了一个低维的词义表示。它可以很好地容纳大量的词汇和语言数据的长尾。图1说明了这些优点。在这个主题的字数和字数之间的预测性的比率。（这种困惑已经被词汇表的大小标准化了）这是一个由20个新闻组和100个主题组成的11.2K篇文章的语料库。这条线是LDA，它的性能随着词汇量的增加而恶化，预测性能和主题质量变差。蓝线是ETM；即使词汇量变大，它仍然保持良好的性能。

和LDA一样，ETM是一个生成概率模型：每个文档都是主题的混合体，每个观察到的单词都被指定给一个特定的主题。在翻译中，术语的前主题条件概率具有对数线性形式，涉及词汇的低维表示。每个项由嵌入表示；每个主题是嵌入空间中的一个点；主题在项上的分布与主题嵌入和每个项嵌入的指数内积成正比。图2和3来自纽约时报的300主题ETM的主题。图中显示了每个主题的主题和主题词；这些主题是关于基督教和体育的。