Topic Modeling in Embedding Spaces 论文
Code for this work can be found at https:// github.com/adjidieng/ETM.
论文地址:https://arxiv.org/pdf/1907.04907.pdf
LDA是一个功能强大的模型,应用广泛。然而,它面临着一个普遍存在的技术问题,它在面对大量词汇时失败了。从业者必须严格删减他们的词汇表,也就是那些既有预测性又有可解释性的词汇模型。这通常是通过删除最常出现的单词来实现的。在大型收藏中,这种修剪可能会删除重要术语并限制模型的范围。大量词汇的主题建模问题在研究文献中尚未得到解决。
作为一个主题模型,它发现了文本的一个可解释的潜在语义结构;作为一个单词嵌入,它提供了一个低维的词义表示。它可以很好地容纳大量的词汇和语言数据的长尾。图1说明了这些优点。在这个主题的字数和字数之间的预测性的比率。(这种困惑已经被词汇表的大小标准化了)这是一个由20个新闻组和100个主题组成的11.2K篇文章的语料库。这条线是LDA,它的性能随着词汇量的增加而恶化,预测性能和主题质量变差。蓝线是ETM;即使词汇量变大,它仍然保持良好的性能。
和LDA一样,ETM是一个生成概率模型:每个文档都是主题的混合体,每个观察到的单词都被指定给一个特定的主题。在翻译中,术语的前主题条件概率具有对数线性形式,涉及词汇的低维表示。每个项由嵌入表示;每个主题是嵌入空间中的一个点;主题在项上的分布与主题嵌入和每个项嵌入的指数内积成正比。图2和3来自纽约时报的300主题ETM的主题 。图中显示了每个主题的主题和主题词;这些主题是关于基督教和体育的。