软件工程之数据流图和数据字典_数据流的图卷积主题模型

数据流的图卷积主题模型

题目:

Graph Convolutional Topic Model for Data Streams

作者:

Ngo Van Linh, Tran Xuan Bach, Khoat Than

来源:

Machine Learning (cs.LG)

Submitted on 13 Mar 2020 (v1), last revised 17 Mar 2020 (this version, v2)

文档链接:

https://arxiv.org/pdf/2003.06112v2.pdf

代码链接:

https://github.com/bachtranxuan/GCTM

摘要

数据流中隐藏主题的学习受到研究者的广泛关注,提出了大量的研究方法,但对先验知识的挖掘,特别是知识图谱的挖掘,在这些方法中都没有得到充分的考虑。从人类知识(如Wordnet)或预先训练的模型(如word2vec)中获得的先验知识对于帮助主题模型更好地工作是非常有价值和有用的,特别是在短文本上。然而,以前的工作常常忽略了这个资源,或者它只能以一种简单的方式利用向量形式的先验知识。本文提出了一种新的图卷积主题模型(GCTM),它将图卷积网络(GCN)集成到一个主题模型中,并针对数据流提出了一种同时学习网络和主题模型的学习方法。在每个minibatch中,我们的方法不仅可以利用一个外部知识图,而且可以在外部知识和旧知识之间取得平衡,从而更好地处理新数据。我们进行了大量的实验来评估我们的方法,既有人类图形知识(Wordnet),也有从预先训练的词嵌入构建的图形(Word2vec)。实验结果表明,该方法在概率预测和主题相关性方面均优于现有的基线方法。特别是,我们的方法可以很好地处理短文本以及概念漂移。GCTM的实现在此https URL中可用。https://github.com/bachtranxuan/GCTM

英文原文

Learning hidden topics in data streams has been paid a great deal of attention by researchers with a lot of proposed methods, but exploiting prior knowledge in general and a knowledge graph in particular has not been taken into adequate consideration in these methods. Prior knowledge that is derived from human knowledge (e.g. Wordnet) or a pre-trained model (e.g.Word2vec) is very valuable and useful to help topic models work better, especially on short texts. However, previous work often ignores this resource, or it can only utilize prior knowledge of a vector form in a simple way. In this paper, we propose a novel graph convolutional topic model (GCTM) which integrates graph convolutional networks (GCN) into a topic model and a learning method which learns the networks and the topic model simultaneously for data streams. In each minibatch, our method not only can exploit an external knowledge graph but also can balance between the external and old knowledge to perform well on new data. We conduct extensive experiments to evaluate our method with both human graph knowledge(Wordnet) and a graph built from pre-trained word embeddings (Word2vec). The experimental results show that our method achieves significantly better performances than the state-of-the-art baselines in terms of probabilistic predictive measure and topic coherence. In particular, our method can work well when dealing with short texts as well as concept drift. The implementation of GCTM is available at this https URL https://github.com/bachtranxuan/GCTM.

引言

研究背景

主题建模是了解数据内部隐藏主题/结构的强大方法。潜在狄利克雷分配(LDA)[5]是目前最流行的主题模型之一,广泛应用于文本挖掘[24]、推荐系统[15]、计算机视觉[8]、生物信息学[22]等领域。近年来,将外部知识整合到LDA中,成为一种改善LDA起源的有效途径。在以前的工作中使用的先验知识来自于人类知识(如种子词[17,16]、Wordnet[2])或从大数据集中学习的预先训练的模型,如word embeddings (Word2vec)[27]。因此,先验知识可以丰富和提高主题模型的性能。

很明显,一个知识图是有价值和有用的,以帮助一个模型处理流环境中得稀疏和嘈杂的数据,以及概念漂移。稀疏或有噪声的数据不仅不能提供足够的信息来训练模型,而且会误导模型。来自全球人类知识的知识图(例如Wordnet)或预先训练的图可以丰富主题模型以处理短文本。此外,在流环境中,我们经常面临概念漂移,即数据的突然变化。这个问题需要一种快速适应变化的方法。知识图(如Wordnet或在大数据集上训练的图)包含有意义的单词关系,因此,将图合并到模型中以处理概念漂移时应该考虑到数据流

在流媒体环境下,利用好知识图谱需要解决两个主要问题。

问题1.首先,现有的流媒体方法忽略了先验知识[6,13,20],或者需要一个向量形式[3]的先验知识。特别是,他们无法利用对图形形式(如Wordnet或预先训练的图形)的先验知识。针对这一问题,图卷积网络(GCN)[12]可以提供一种将图知识嵌入主题空间的潜在解决方案。由于GCN可以对高阶邻域关系/结构进行编码,它可以学习良好的图嵌入来丰富主题模型。

问题2.其次,每个minibatch中控制知识图影响的自动机制对于平衡知识图和前一个minibatch中学习的旧知识起着重要的作用。适当的平衡机制有助于在实践中有效地利用这两种知识。在本文中,我们提出了一个新的模型,即图卷积主题模型(GCTM),它将GCN集成到数据流的主题模型中我们还开发了一个在流媒体环境中同时学习概率主题模型和GCN的方法

GCTM有以下一些好处:

1。GCTM利用来自人类知识或预先训练的模型的知识图来丰富数据流的主题模型,特别是在数据稀疏或有噪声的情况下。我们强调,我们的工作首先提供了一种在流环境中对图形形式的先验知识建模的方法。

2.我们还提出了一个自动机制来平衡原始的先验知识和在前一个小批量中学习到的旧知识。这种机制可以自动控制的影响,以前的知识在每个小批量。当概念漂移发生时,它可以自动地减小旧知识的影响,而增加先验知识的影响,帮助我们的方法很好地处理概念漂移。

3.我们的方法可以很好地处理连续数据时的概念漂移。利用包含或涉及新概念的外部知识是处理概念漂移的有效解决方案。

4.我们的方法在一个流环境中同时学习GCN和LDA。更一般地,它可以扩展到训练神经网络的混合模型和数据流的概率模型。

图卷积主题模型(GCTM)用于数据流

在本节中,我们首先提出了一个我们提出的模型(GCTM),然后开发了一个在流环境中学习GCTM的学习方法。

在本小节中,我们描述了如何将GCN[12]集成到LDA中来开发一个知识图。

图1:潜在狄利克雷分配(LDA)的图形表示

db1b8e9c3c33c11b989eb9b87c38c813.png

LDA的生成过程如下:

d752f2410542c40a7b1759b7a311656e.png

在GCN中,每一层都可以对邻域关系进行编码,以学习图中所有节点的表示。

具体数学公式推导,及详细过程在论文第3章。有需要请细读。

实验

数据集

5组短文本数据集

(NYTtitle 【1】 , Yahoo-title, TagMyNews-title (TMN-title), Irishtimes【2】),Agnews-title

2组常规文本数据集

(Agnews【3】, TagMyNews (TMN)【4】)

部分数据集链接:

1.http://archive.ics.uci.edu/ml/datasets/Bag+of+Words2.https://www.kaggle.com/therohk/ireland-historical-news/

3.https://course.fast.ai/datasets

4.http://acube.di.unipi.it/tmn-dataset/

数据集内容概述表1所示:

a2c528e51d5a95d51afc03f55fb0f82c.png

基线方法

与我们的方法对比的3个流行的基线方法:

1.人口变分贝叶斯(PVB)[19]使用随机自然梯度上升,以最大限度地期望数据的可能性。

2.流变分贝叶斯[6]是基于递归贝叶斯方法的。SVB只能在第一个minibatch中使用先前编码的外部知识,然后在下一个minibatch中忽略它。

3.Power prior (SVB- pp) 7[18]是SVB的扩展。它可以利用所有小批量的初始先验分布,并提供了一种机制来控制每个小批量中先验的影响。

4.当使用Wordnet作为知识图时,GCTM- wn是GCTM。

5.当使用从Word2vec构建的知识图时,GCTM- w2v是GCTM。

实验结果分析

在LPP方面,图3显示了实验结果。我们从这些结果中得到了一些值得注意的观察结果。首先,GCTM-WN和GCTM-W2V都明显优于基线。提供来自Wordnet或Word2vec的外部知识图是基于gctm的方法比不利用先验知识的基线具有更好性能的主要原因。其次,GCTM-WN和GCTM-W2V在NYT-title和yaho -title数据集上的一些起始小批量都不如基线,而它们需要更多的小批量来赶上其余数据集上的基线。

13e26583e739187da91317fbcbdca9ce.png

NPMI的实验结果如表2所示。GCTM-WN和GCTM-W2V也比基线有明显的优势。因为,Wordnet和Word2vec对词的语义信息和局部上下文信息进行编码,有助于LDA学习连贯的主题。常规文本数据集(Agnews和TMN)比短文本数据集包含更多的词共现信息,因此这些方法在常规数据集上工作得更好。此外,基于gctm的方法在短文本数据集上的性能也更显著。

d6c099cd9627367c69ac608a868c7c8e.png

LPP结果如图4所示。图4(a)显示了具有时间戳的数据集上的结果,而图4(b)显示了具有固定批处理大小的数据集上的结果。很明显,这两种场景中的线条行为是相似的。在时间戳场景中,基于GCTM的方法的性能明显优于基线.

13404fb91f10b477e6887fd93ce24539.png

表3显示,基于gctm的方法也比基于sce的基线获得了更好的NPMI结果

5dc09b6dafad727c735fd89a92ff9ff4.png

我们用两个不同的等级进行实验,图5和图6说明了这些方法的性能。

371ceec7c4c967846c4ca00fe0cdc1bb.png
9ae309f852c2436feb0faf9278304864.png

图5图6中:每个图包括5个子图:主图和4个小的额外图(从主图中提取,以在概念漂移发生时放大)。从图5和图6中的主要数据可以看出,GCTM-WN和SVB- pp比PVB和SVB的效果更好。GCTM-WN和SVB-PP都有一个平衡机制,当概念漂移发生时,可以减少从以前类的数据中学习到的旧知识对当前类的新数据的影响。很明显,使用知识图可以帮助GCTM-WN胜过SVB-PP。

图7图8对模型超参的敏感性进行了分析,描述了找超参的细节,此处不再进行详细的描述。

结论

综上所述,本文提出了一种新的模型,该模型将图卷积网络集成到主题模型中,很好地利用了知识图。提出了一种流媒体环境下同时训练网络和主题模型的学习方法。值得注意的是,我们的方法可以扩展到广泛的一类概率模型。大量的实验结果表明,该方法在处理较短的文本和概念漂移时效果良好。我们的方法在泛化能力和主题一致性方面显著优于最先进的基线方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值