#Paper Reading# Topic Modeling using Topics from Many Domains, Lifelong Learning and Big Data

论文题目:Topic Modeling using Topics from Many Domains, Lifelong Learning and Big Data
论文地址:http://www.jmlr.org/proceedings/papers/v32/chenf14.pdf

论文大体内容:
本文提出Lifelong Learning的概念,通过对每个dataset自动地学习、整理出knowledge base,并使用这个knowledge base去指导各个dataset的再学习,以获得更好的主题效果。同时,通过将big data划分为多个small data,使用Lifelong Learning的方法,达到对big data的有效且高效的处理。

1、作者提出使用prior knowledge sets(pk-set)来表示先验知识,但是该先验知识尽管在某一个dataset中是正确的,到了另一个dataset有可能会出错(如一词多义等),本文也将解决这个问题。

2、知识积累的伪代码如图。(对每个dataset学习其中的知识Si,然后合并为整体知识S,之后再使用S指导各个dataset重新学习)
这里写图片描述

3、Lifelong Topic Model(LTM)的伪代码如图。(对每个dataset学习其中的知识A,再整合A与S得出K,然后用K指导dataset的学习)
这里写图片描述

4、新知识A与知识库S的知识整合的伪代码如图。(如果两者KL散度(KL散度越小,说明相似度越高)的值小于某个阈值,则说明这个新知识要加入到知识库中)
这里写图片描述

5、主题模型中抽取出的主题词不一定是全部正确的,所以作者使用Ponintwise Mutual Information(PMI)的方法,去测量主题词的任意两个词之间的关联度,如果两个词之间的关联度很低,则说明两者中很大概率存在不对的词,需要去掉。
这里写图片描述
这里写图片描述

6、Baseline:作者对比了4个baseline,包括:
①LDA[1],最原始、基本的LDA算法,使用狄利克雷分布计算主题概率的非监督式主题模型;
②DF-LDA[2],基于knowledge base的主题模型,使用了must-link与cannot-link的方法;
③GK-LDA[3],基于knowledge base的主题模型,使用了每个topic下的单词概率去掉错误的知识的方法;
④AKL[4],基于knowledge base的主题模型,使用了聚类的方法去学习知识;

7、Dataset:作者使用了Amazon网站上的评论数据集,包括50个领域各1000个评论。

8、参数设置:LDA的参数α=1,β=0.1,主题数量设定为T=15。

9、实验结论:Topic Coherence比baseline有一点点提升,Precision@n也比baseline有提升。同时作者对大的dataset进行分割,然后再使用LTM模型学习,发现模型的效果与速度均有所提升。
这里写图片描述
这里写图片描述
这里写图片描述

参考资料:
[1]、http://www.jmlr.org/papers/v3/blei03a.html
[2]、http://dl.acm.org/citation.cfm?id=1553378
[3]、http://dl.acm.org/citation.cfm?id=2505519
[4]、http://anthology.aclweb.org/P/P14/P14-1033.pdf

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值