x博推的,主题模型相关
来源:arXiv2023
摘要
问题:
topic models 会面临主题崩塌(主题在语义上崩塌在一块)的问题,导致主题重复度高,主题发现不充分,影响模型的可解释性。
模型:
提出了一个ECRTM,Embedding Clustering Regularization Topic Model。
在保留重构误差的基础上,提出了ECR,Embedding Clustering Regularization,让每个topic作为聚类的簇,缓解了主题崩塌。
引言
topic models分类
- 有概率图模型或矩阵分解的传统该主题模型
- 神经主题模型
主题崩塌
发掘的主题在语义层级会互相崩塌
如上表,相互崩塌的主题有很多无信息/重复的单词,这会导致:
- 主题崩溃导致很多高度重复的主题,不利于下游任务
- 主题崩塌导致主题发掘不够充分。许多潜在主题是未公开(undisclosed),导致主题发掘不能足够的理解文档。
- 损害模型的可解释性。很难推断文档包含的真实的潜在主题。
如图,前三个都主题崩塌了(潜在语义空间坍塌–发现的主题包含相似的词语–主题崩塌):
ECR
提出的一种约束策略,即通过将topic作为clustering centers,做聚类
为了更有效的约束,通过解决了最优运输问题(没懂)来对软聚类进行建模
As such, ECR forces each topic embedding to be the center of a separately aggregated word embedding cluster.
因此ECR强制每个topic在embedding空间都是单独聚合的词的中心(没懂)。使得主题彼此远离,并覆盖词的不同语义。
相关工作
传统主题模型
主要使用概率图形模型对以主题为潜在变量的文档的生成进行建模。
使用如 Gibbs 采样或变分推理方法推断模型参数
一些研究使用矩阵分解来建模主题
神经主题模型
可以直接应用梯度反向传播,增强了灵活性和可扩展性
可以直接对预训练的词嵌入或句子嵌入进行聚类以产生主题,但它们不是主题模型,因为它们无法根据需要推断文档的主题分布。
NSTM (Zhao et al., 2021b) 和 WeTe (Wang et al., 2022) 用最佳传输距离测量重建误差。但仍然崩塌
方法
导致主题崩塌的原因
sota模型使用两个参数来表示主题词分布
W为V单词的嵌入表示。T为主题K个主题的嵌入表示
可以通过预训练的方法来初始化W,促进学习。
作者认为sota模型崩塌是因为重构误差导致的:
这些模型通过最小化主题分布θ和单词分布x的误差来学习主题和词的嵌入表示。
For example, to measure reconstruction error, ETM (Dieng et al., 2020) uses traditional expected log-likelihood, and recent NSTM (Zhao et al., 2021b) and WeTe (Wang et al., 2022) use optimal (conditional) transport distance.
怎么感觉这句话的意思是可以用最佳运输替代kl散度?
一般来说 ,文档中少量的词是高频,大多数还是低频的。
因此,重构主要重构高频词,而没有考虑测量的误差(我理解就是说重构太简单了)。这就会导致大多数主题的嵌入和高频词的嵌入靠近。然后就崩塌了。
主题词分布都很像,出来的词也就烂完了,这就是崩塌。
为论证这个高频词的影响,后面做了去除高频词的论证实验。
嵌入正则化的设计
简而言之,topic作为聚类中心,然后通过正则化的手段,将词聚到topic周围。
联合优化
需要对主题和词嵌入的联合优化,还要顾及到神经主题模型的建模目标
传统聚类(kmeans,GMM),通过预训练词嵌入进行聚类来生成主题(我理解的是直接用维度表示主题?),这不叫主题模型,它智能产生出题,但不能对着文档主题分布进行学习。本文没用DEC这类模型,说法是不能和神经主题网络的建模目标同时优化。(没懂,什么是神经主题网络的建模目标neural topic modeling objective)
生成稀疏的软分配
(软分配为啥要稀疏?)
这块用的是聚类的正则化,生成稀疏的软分配。即使考虑到联合优化,现有的聚类方法也有可能导致主题崩塌。
作者说用了一个sota叫Deep KMeans(DKM,2020)(这玩意听着好像还挺牛,瑕下次看看能不能吧kmean换了提点)
DKM的目标是最小化 由软分配当权重的 中心和样本之间的欧几里得距离。
本文用来DKM:
公式很面熟。
单用DKM会成a的样子,因此需要加入约束条件。
方法是 一个词只分给一个topic,这样就不会糊一块了。
约束集群size
提出了DKM+Entropy,即最小化软分配的熵。
结果证实,确实为一些topic分别形成了集群,但还是存在很多topic的集群是空的。这些空的簇无法分开,覆盖到不同的语义,导致了崩塌。因此想到约束每个簇不能为空,即需要一种正则化方法。
嵌入聚类正则化
提出了ECR,一种嵌入聚类正则化的方法。
预设集群大小的约束
nk作为主题tk的聚类size,则这个集群的大小占比sk=nk/V(V为词嵌入),
主题词分布上的对称的迪利克雷先验在LDA取得好的结果,
直接将nk=V/K,s=1/K,即平均作为先验
ECR
定义了两个衡量标准
w是word,t是topic,δx表示x上的狄拉克单位质量
则y和φ的最优运输为:
第一项为原始的最有运输问题,第二项是熵正则化。
该公式是用于找到最佳运输计划使从词嵌入到主题嵌入的传输权重总成本最小。
通过欧几里得距离测量词嵌入 wj 和主题嵌入 tk 之间的传输成本:
建模为wj 到 tk 的软分配是两者之间的传输权重
ECR目标为
调节超参ε,即可获得较好的聚类结果