基于数据(语料库)的复述粗略综述

本文概述了基于数据(语料库)的复述研究,重点关注复述生成的层次、应用,以及不同类型的复述方法,如基于单语和双语平行语料库的复述。复述在信息检索、机器翻译等领域有广泛应用,通过复述识别和文本蕴涵,可以度量语义相似度。未来研究方向包括结合多种资源和领域特定的复述方法。
摘要由CSDN通过智能技术生成

基于数据(语料库)的复述粗略综述

By牛力强 2013年9月24日

NLP CS NJU

Email:simpleniulq2013@gmail.com

1.复述

1.1复述(paraphrase):

在与原句表达相同的语义内容,同一种语言下的原句的替代形式。

1.2复述产生的层次(level):

词汇复述(lexical paraphrase):个别词汇(individual lexical items)具有相同的语义表达

同义词(synonyms):hot-warm,eat-consume

上位词(hypernym):reply-say,landlady-hostess

短语复述(phrasal paraphrase):短语片段(phrasal fragments)具有相同的语义内容

句法短语(syntacticphrases):workon-soften up,takeover-assume control of

链接变量(linkedvariables):Y was builtby X,X is thecreator of Y

句子复述(sentential paraphrases):两个句子代表了相同的语义内容

I finished my work.              Icompleted my assignment.

简单的句子复述可以进行句子中词项或者短语的替换(substitute)

复杂的句子复述生成困难一些:Heneeded to make a quick decision in that situation.

The scenario required him to make a spit-secondjudgment.

1.3讨论范围:

短语复述的自动获取(包括短语复述的模式)和句子复述的生成。

不讨论主要依赖于知识资源(词典)、手写规则、形式文法的复述方法。

排除完全基于词的复述、应用于特定应用的方法、还有段落或者整个文档的复述。

1.4复述生成的应用:

1.4.1查询和模式扩展(query and pattern expansion)

一个重要的复述生成的应用就是在信息检索系统中自动生成查询的变种或者是信息抽取系统中模式。

Original: circuit details

Variant 1:details about the circuit

Variant 2:the details of circuits

在信息检索中,运用复述生成生成相似或者相关的查询扩展,这些方法通常利用了查询日志(query log)来计算语义相似度。

Jacquemin在1999年生成了农业领域的形态学的句法语义变种:

Original: simultaneous measurements

Variant: concurrent measures

Original: development area

Variant: area of growth

Ravichandran and Hovy在2002年采用半监督学习方法针对每个问题类型生成了几种复述模式,并且用于问答系统中。例如INVENTOR问题类型:

Original: X was invented by Y

Variant 1: Y’s invention of X

Variant 2: Y, inventor of X

Riezler在2007年通过生成N-BEST复述句扩展了查询(通过双语平行语料库训练处基于枢轴的句子复述模型)。例如句子how to live with cat allergies生成两个复述句:

P1: ways to live with feline allergy

P2: how to deal with cat allergens

最后,复述还用于提高关系抽取任务。Bhagat and Ravichandran 在2008年收集了复述模式用于关系抽取,在一个大的单语语料库上采用半监督复述归纳。例如关系“acquisition”,收集到:

Original: X agreed to buy Y

Variant 1: X completed its acquisition of Y

Variant 2: X purchased Y

1.4.2扩展稀疏的人类参考数据用于评价(Expanding Sparse Human Reference Data for Evaluation)

在很大一部分NLP应用问题中,通过比较系统的结果与人类标注的数据来评价系统,这类应用有机器翻译和文档摘要。

在机器翻译中,采用人工标注的数据来评价翻译系统不够完整,毕竟人工标注的数据不能涵盖所有可能的翻译模式。例如翻译系统给出的结果S相比人工标注中的R不会具有高的score,尽管两者包含相同的语义内容:

S: We must consider the entire community.

R: We must bear in mind the community as a whole.

在文档摘要评价中,自动生成的摘要同样是跟人类自行标注的参考摘要进行比较。

1.4.3机器翻译(Machine Translation)

不仅应用于机器翻译系统评价,复述也被直接应用于提高机器翻译的过程。Callison-Burch,Koehn and Osborne在2006年采用自动生成复述来提高基于短语的统计机器翻译系统。这类翻译系统的工作原理将一个句子分隔成短语并且分别对短语通过查表进行翻译,翻译中允许没有译文的短语采用其复述短语的翻译,这样翻译系统的覆盖率得到提高。例如给定一个西班牙语句子包含短语“presidente de Brazil”,但是系统中不存在对应的翻译,此时另一个短语“presidente brasileno”是“predidente de B

WikiAnswers 是一个英语自然语言问题数据集,从WikiAnswers 网站上抓取的相同问题的不同表述形式,包括 250 万个不同问题和 1800 万个问题复述对。 问题:         What are the green blobs in plant cells?问题复述:         a green substance in the plant cell be the ?         be cytoplasm a green cell part in certain plant cell ?         package of green coloring in plant cell ?         part of the plant cell where the cell get it green color ?         the green part in a plant be call ?         the green part of a plant cell ?         the part of the plant cell that make the plant green be call ?         what be green part call ?         what be green part in plant cell ?         what be the green body in a plant cell ?         what be the green machine within a plant cell ?         what be the green part of a plant cell ?         what be the green part of plant cell ?         what be the green substance in plant cell ?         what be the name of the green thing in the plant cell ?         what be the part of plant cell that give it green color ?         what be the part of the cell that produce the green color of the plant ?         what be the part of the plant cell that make the green color ?         what be to part of the plant cell ?         what cell part do plant have that enable the plant to be give a green color ?         what in a plant cell that be green ?         what part of the cell be large and green ?         what part of the plant cell turn it green ?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值