#Paper Reading# Topic Modeling using Topics from Many Domains, Lifelong Learning and Big Data

论文题目:Topic Modeling using Topics from Many Domains, Lifelong Learning and Big Data
论文地址:http://www.jmlr.org/proceedings/papers/v32/chenf14.pdf

论文大体内容:
本文提出Lifelong Learning的概念,通过对每个dataset自动地学习、整理出knowledge base,并使用这个knowledge base去指导各个dataset的再学习,以获得更好的主题效果。同时,通过将big data划分为多个small data,使用Lifelong Learning的方法,达到对big data的有效且高效的处理。

1、作者提出使用prior knowledge sets(pk-set)来表示先验知识,但是该先验知识尽管在某一个dataset中是正确的,到了另一个dataset有可能会出错(如一词多义等),本文也将解决这个问题。

2、知识积累的伪代码如图。(对每个dataset学习其中的知识Si,然后合并为整体知识S,之后再使用S指导各个dataset重新学习)
这里写图片描述

3、Lifelong Topic Model(LTM)的伪代码如图。(对每个dataset学习其中的知识A,再整合A与S得出K,然后用K指导dataset的学习)
这里写图片描述

4、新知识A与知识库S的知识整合的伪代码如图。(如果两者KL散度(KL散度越小,说明相似度越高)的值小于某个阈值,则说明这个新知识要加入到知识库中)
这里写图片描述

5、主题模型中抽取出的主题词不一定是全部正确的,所以作者使用Ponintwise Mutual Information(PMI)的方法,去测量主题词的任意两个词之间的关联度,如果两个词之间的关联度很低,则说明两者中很大概率存在不对的词,需要去掉。
这里写图片描述
这里写图片描述

6、Baseline:作者对比了4个baseline,包括:
①LDA[1],最原始、基本的LDA算法,使用狄利克雷分布计算主题概率的非监督式主题模型;
②DF-LDA[2],基于knowledge base的主题模型,使用了must-link与cannot-link的方法;
③GK-LDA[3],基于knowledge base的主题模型,使用了每个topic下的单词概率去掉错误的知识的方法;
④AKL[4],基于knowledge base的主题模型,使用了聚类的方法去学习知识;

7、Dataset:作者使用了Amazon网站上的评论数据集,包括50个领域各1000个评论。

8、参数设置:LDA的参数α=1,β=0.1,主题数量设定为T=15。

9、实验结论:Topic Coherence比baseline有一点点提升,Precision@n也比baseline有提升。同时作者对大的dataset进行分割,然后再使用LTM模型学习,发现模型的效果与速度均有所提升。
这里写图片描述
这里写图片描述
这里写图片描述

参考资料:
[1]、http://www.jmlr.org/papers/v3/blei03a.html
[2]、http://dl.acm.org/citation.cfm?id=1553378
[3]、http://dl.acm.org/citation.cfm?id=2505519
[4]、http://anthology.aclweb.org/P/P14/P14-1033.pdf

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

《Multiphysics Modeling Using COMSOL5 and MATLAB》是Roger W. Pryor所著的一本关于使用COMSOL5和MATLAB进行多物理建模的书籍。本书主要介绍了如何使用COMSOL Multiphysics软件和MATLAB编程工具来解决复杂的多物理问题。 书中首先介绍了COMSOL Multiphysics软件的基本原理和使用方法。它是一款专业的多物理建模和仿真软件,可以模拟和求解电磁场、热传导、流体流动等多种物理现象。通过COMSOL Multiphysics软件的图形界面,用户可以轻松地建立物理模型、设定边界条件和初始条件,并进行仿真求解。此外,书中还介绍了COMSOL Multiphysics软件的参数扫描、优化和参数化建模等高级功能。 另外,本书还介绍了如何使用MATLAB编程工具与COMSOL Multiphysics软件进行集成。通过编写MATLAB脚本程序,可以实现更高级的多物理模型构建和求解过程。MATLAB可以作为COMSOL Multiphysics软件的前后处理工具,实现更加复杂的数据处理和可视化操作。作者还提供了一些MATLAB示例代码,供读者学习和参考。 这本书适合那些对多物理建模和仿真感兴趣的学生、研究人员和工程师阅读。通过学习本书,读者可以掌握使用COMSOL Multiphysics软件和MATLAB进行多物理建模和仿真的基本技能,进一步提高科研和工程实践的能力。此外,本书作为一本教材,也可以作为大学机械、电子、物理等专业的教学参考书籍。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值