#Paper Reading# Topic Modeling using Topics from Many Domains, Lifelong Learning and Big Data

最新推荐文章于 2023-02-21 14:21:34 发布

John159151

最新推荐文章于 2023-02-21 14:21:34 发布

阅读量985

点赞数

分类专栏： paper reading LML 文章标签： LML

本文链接：https://blog.csdn.net/john159151/article/details/52498396

版权

paper reading 同时被 2 个专栏收录

103 篇文章

订阅专栏

LML

11 篇文章

订阅专栏

论文题目：Topic Modeling using Topics from Many Domains, Lifelong Learning and Big Data
论文地址：http://www.jmlr.org/proceedings/papers/v32/chenf14.pdf

论文大体内容：
本文提出Lifelong Learning的概念，通过对每个dataset自动地学习、整理出knowledge base，并使用这个knowledge base去指导各个dataset的再学习，以获得更好的主题效果。同时，通过将big data划分为多个small data，使用Lifelong Learning的方法，达到对big data的有效且高效的处理。

1、作者提出使用prior knowledge sets(pk-set)来表示先验知识，但是该先验知识尽管在某一个dataset中是正确的，到了另一个dataset有可能会出错（如一词多义等），本文也将解决这个问题。

2、知识积累的伪代码如图。（对每个dataset学习其中的知识Si，然后合并为整体知识S，之后再使用S指导各个dataset重新学习）
这里写图片描述

3、Lifelong Topic Model(LTM)的伪代码如图。（对每个dataset学习其中的知识A，再整合A与S得出K，然后用K指导dataset的学习）
这里写图片描述

4、新知识A与知识库S的知识整合的伪代码如图。（如果两者KL散度(KL散度越小，说明相似度越高)的值小于某个阈值，则说明这个新知识要加入到知识库中）
这里写图片描述

5、主题模型中抽取出的主题词不一定是全部正确的，所以作者使用Ponintwise Mutual Information(PMI)的方法，去测量主题词的任意两个词之间的关联度，如果两个词之间的关联度很低，则说明两者中很大概率存在不对的词，需要去掉。
这里写图片描述

6、Baseline：作者对比了4个baseline，包括：
①LDA[1]，最原始、基本的LDA算法，使用狄利克雷分布计算主题概率的非监督式主题模型；
②DF-LDA[2]，基于knowledge base的主题模型，使用了must-link与cannot-link的方法；
③GK-LDA[3]，基于knowledge base的主题模型，使用了每个topic下的单词概率去掉错误的知识的方法；
④AKL[4]，基于knowledge base的主题模型，使用了聚类的方法去学习知识；

7、Dataset：作者使用了Amazon网站上的评论数据集，包括50个领域各1000个评论。

8、参数设置：LDA的参数α=1，β=0.1，主题数量设定为T=15。

9、实验结论：Topic Coherence比baseline有一点点提升，Precision@n也比baseline有提升。同时作者对大的dataset进行分割，然后再使用LTM模型学习，发现模型的效果与速度均有所提升。
这里写图片描述