Integrating Syntactic and Semantic Analysis into the OpenInformation Extraction Paradigm
目标: Open Information Extraction (OIE) paradigm,即从大型语料库中提取关系.
关键点:之前的文章往往仅仅提取语料库上下文的文本信息,来进行关系的判别.本文提出将句法,语法分析的结果也作为特征,进行分类.
方法:
1.用句法分析得到的特征关系识别过程的质量.
2.用语法分析整合到语法分析之中,从而将同义的关系综合起来,形成成熟的含有语义的关系库.
3.对每一个关系增加语义标签.
Learning Topical Translation Model for Microblog HashtagSuggestion
目标:微博的标签推荐
关键点:微博长度短,标签本身可能不会出现在微博之中,需要以翻译的方法去做这件事情,即将微博本身的信息与标签看作两种不同的语言.标签推荐就成为一个翻译的过程.而二者之间的联系由公共的主题完成.
方法:以主题翻译模型完成标签的推荐.
Leveraging Multi-Domain Prior Knowledge in Topic Models
目标:提升主题模型的效果
关键点:最初的主题模型是无监督的学习,所给出的主题难以被人所理解.为了解决这一问题,有了基于先验知识的主体模型,提升了效果.但是,各个领域的知识难以结合起来一起提升主体模型.
方法:本文首先提出一个语义集的概念,同一个语义集内的单词有同样的主题分布.不同的先验知识库都可以转换为语义集的形式.这样就形成了 单词-语义集-主题 的三层主题模型,这一模型可以自我形成新的语义集,从而达到将不同领域的先验知识结合的目的.
PPSGen: Learning to Generate Presentation Slides for AcademicPapers
目标:对于一篇论文自动形成PPT
关键点:PPT中的每句话,每个段落之间都有着很强的逻辑关系,不能简单地用摘要的方法去做.
方法:
1.用线性回归的方法标出每句话的重要程度
2.用Integer Linear Programming方法去挑选语句,并将关键词与关键句排列.