Topic Modeling in Embedding Spaces 论文阅读

ETM(Embedded Topic Model)解决了LDA在大量词汇时面临的挑战,它是一个结合了主题建模和单词嵌入的模型。ETM通过在嵌入空间中表示主题和单词,保持了良好的预测性能,即使词汇量增加。它使用对数线性模型和变分推理,允许在大型语料库中有效处理主题分配,同时对停止词具有鲁棒性。ETM在文档完成任务和主题相关性评估中表现出色,特别适合处理大型词汇表。
摘要由CSDN通过智能技术生成

Topic Modeling in Embedding Spaces 论文

Code for this work can be found at https:// github.com/adjidieng/ETM.
论文地址:https://arxiv.org/pdf/1907.04907.pdf
LDA是一个功能强大的模型,应用广泛。然而,它面临着一个普遍存在的技术问题,它在面对大量词汇时失败了。从业者必须严格删减他们的词汇表,也就是那些既有预测性又有可解释性的词汇模型。这通常是通过删除最常出现的单词来实现的。在大型收藏中,这种修剪可能会删除重要术语并限制模型的范围。大量词汇的主题建模问题在研究文献中尚未得到解决。
作为一个主题模型,它发现了文本的一个可解释的潜在语义结构;作为一个单词嵌入,它提供了一个低维的词义表示。它可以很好地容纳大量的词汇和语言数据的长尾。图1说明了这些优点。在这个主题的字数和字数之间的预测性的比率。(这种困惑已经被词汇表的大小标准化了)这是一个由20个新闻组和100个主题组成的11.2K篇文章的语料库。这条线是LDA,它的性能随着词汇量的增加而恶化,预测性能和主题质量变差。蓝线是ETM;即使词汇量变大,它仍然保持良好的性能。描述

和LDA一样,ETM是一个生成概率模型:每个文档都是主题的混合体,每个观察到的单词都被指定给一个特定的主题。在翻译中,术语的前主题条件概率具有对数线性形式,涉及词汇的低维表示。每个项由嵌入表示;每个主题是嵌入空间中的一个点;主题在项上的分布与主题嵌入和每个项嵌入的指数内积成正比。图2和3来自纽约时报的300主题ETM的主题 。图中显示了每个主题的主题和主题词;这些主题是关于基督教和体育的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值