基于数据(语料库)的复述粗略综述
By牛力强 2013年9月24日
NLP CS NJU
Email:simpleniulq2013@gmail.com
1.复述
1.1复述(paraphrase):
在与原句表达相同的语义内容,同一种语言下的原句的替代形式。
1.2复述产生的层次(level):
词汇复述(lexical paraphrase):个别词汇(individual lexical items)具有相同的语义表达
同义词(synonyms):hot-warm,eat-consume
上位词(hypernym):reply-say,landlady-hostess
短语复述(phrasal paraphrase):短语片段(phrasal fragments)具有相同的语义内容
句法短语(syntacticphrases):workon-soften up,takeover-assume control of
链接变量(linkedvariables):Y was builtby X,X is thecreator of Y
句子复述(sentential paraphrases):两个句子代表了相同的语义内容
I finished my work. Icompleted my assignment.
简单的句子复述可以进行句子中词项或者短语的替换(substitute)
复杂的句子复述生成困难一些:Heneeded to make a quick decision in that situation.
The scenario required him to make a spit-secondjudgment.
1.3讨论范围:
短语复述的自动获取(包括短语复述的模式)和句子复述的生成。
不讨论主要依赖于知识资源(词典)、手写规则、形式文法的复述方法。
排除完全基于词的复述、应用于特定应用的方法、还有段落或者整个文档的复述。
1.4复述生成的应用:
1.4.1查询和模式扩展(query and pattern expansion)
一个重要的复述生成的应用就是在信息检索系统中自动生成查询的变种或者是信息抽取系统中模式。
Original: circuit details
Variant 1:details about the circuit
Variant 2:the details of circuits
在信息检索中,运用复述生成生成相似或者相关的查询扩展,这些方法通常利用了查询日志(query log)来计算语义相似度。
Jacquemin在1999年生成了农业领域的形态学的句法语义变种:
Original: simultaneous measurements
Variant: concurrent measures
Original: development area
Variant: area of growth
Ravichandran and Hovy在2002年采用半监督学习方法针对每个问题类型生成了几种复述模式,并且用于问答系统中。例如INVENTOR问题类型:
Original: X was invented by Y
Variant 1: Y’s invention of X
Variant 2: Y, inventor of X
Riezler在2007年通过生成N-BEST复述句扩展了查询(通过双语平行语料库训练处基于枢轴的句子复述模型)。例如句子how to live with cat allergies生成两个复述句:
P1: ways to live with feline allergy
P2: how to deal with cat allergens
最后,复述还用于提高关系抽取任务。Bhagat and Ravichandran 在2008年收集了复述模式用于关系抽取,在一个大的单语语料库上采用半监督复述归纳。例如关系“acquisition”,收集到:
Original: X agreed to buy Y
Variant 1: X completed its acquisition of Y
Variant 2: X purchased Y
1.4.2扩展稀疏的人类参考数据用于评价(Expanding Sparse Human Reference Data for Evaluation)
在很大一部分NLP应用问题中,通过比较系统的结果与人类标注的数据来评价系统,这类应用有机器翻译和文档摘要。
在机器翻译中,采用人工标注的数据来评价翻译系统不够完整,毕竟人工标注的数据不能涵盖所有可能的翻译模式。例如翻译系统给出的结果S相比人工标注中的R不会具有高的score,尽管两者包含相同的语义内容:
S: We must consider the entire community.
R: We must bear in mind the community as a whole.
在文档摘要评价中,自动生成的摘要同样是跟人类自行标注的参考摘要进行比较。
1.4.3机器翻译(Machine Translation)
不仅应用于机器翻译系统评价,复述也被直接应用于提高机器翻译的过程。Callison-Burch,Koehn and Osborne在2006年采用自动生成复述来提高基于短语的统计机器翻译系统。这类翻译系统的工作原理将一个句子分隔成短语并且分别对短语通过查表进行翻译,翻译中允许没有译文的短语采用其复述短语的翻译,这样翻译系统的覆盖率得到提高。例如给定一个西班牙语句子包含短语“presidente de Brazil”,但是系统中不存在对应的翻译,此时另一个短语“presidente brasileno”是“predidente de B