基于数据(语料库)的复述粗略综述

最新推荐文章于 2022-10-17 23:17:00 发布

仰望-NLQ

最新推荐文章于 2022-10-17 23:17:00 发布

阅读量5.6k

点赞数 3

分类专栏：自然语言处理NLP 文章标签：自然语言处理复述语料库综述

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/simpleniulq/article/details/12357097

版权

本文概述了基于数据（语料库）的复述研究，重点关注复述生成的层次、应用，以及不同类型的复述方法，如基于单语和双语平行语料库的复述。复述在信息检索、机器翻译等领域有广泛应用，通过复述识别和文本蕴涵，可以度量语义相似度。未来研究方向包括结合多种资源和领域特定的复述方法。

摘要由CSDN通过智能技术生成

基于数据(语料库)的复述粗略综述

By牛力强 2013年9月24日

NLP CS NJU

Email:simpleniulq2013@gmail.com

1.复述

1.1复述（paraphrase）：

在与原句表达相同的语义内容，同一种语言下的原句的替代形式。

1.2复述产生的层次（level）：

词汇复述（lexical paraphrase）：个别词汇(individual lexical items)具有相同的语义表达

同义词（synonyms）：hot-warm，eat-consume

上位词（hypernym）：reply-say，landlady-hostess

短语复述（phrasal paraphrase）：短语片段(phrasal fragments)具有相同的语义内容

句法短语(syntacticphrases)：workon-soften up，takeover-assume control of

链接变量(linkedvariables)：Y was builtby X，X is thecreator of Y

句子复述(sentential paraphrases)：两个句子代表了相同的语义内容

I finished my work. Icompleted my assignment.

简单的句子复述可以进行句子中词项或者短语的替换(substitute)

复杂的句子复述生成困难一些：Heneeded to make a quick decision in that situation.

The scenario required him to make a spit-secondjudgment.

1.3讨论范围：

短语复述的自动获取（包括短语复述的模式）和句子复述的生成。

不讨论主要依赖于知识资源（词典）、手写规则、形式文法的复述方法。

排除完全基于词的复述、应用于特定应用的方法、还有段落或者整个文档的复述。

1.4复述生成的应用：

1.4.1查询和模式扩展(query and pattern expansion)

一个重要的复述生成的应用就是在信息检索系统中自动生成查询的变种或者是信息抽取系统中模式。

Original: circuit details

Variant 1:details about the circuit

Variant 2:the details of circuits

在信息检索中，运用复述生成生成相似或者相关的查询扩展，这些方法通常利用了查询日志(query log)来计算语义相似度。

Jacquemin在1999年生成了农业领域的形态学的句法语义变种：

Original: simultaneous measurements

Variant: concurrent measures

Original: development area

Variant: area of growth

Ravichandran and Hovy在2002年采用半监督学习方法针对每个问题类型生成了几种复述模式，并且用于问答系统中。例如INVENTOR问题类型：

Original: X was invented by Y

Variant 1: Y’s invention of X

Variant 2: Y, inventor of X

Riezler在2007年通过生成N-BEST复述句扩展了查询（通过双语平行语料库训练处基于枢轴的句子复述模型）。例如句子how to live with cat allergies生成两个复述句：

P1: ways to live with feline allergy

P2: how to deal with cat allergens

最后，复述还用于提高关系抽取任务。Bhagat and Ravichandran 在2008年收集了复述模式用于关系抽取，在一个大的单语语料库上采用半监督复述归纳。例如关系“acquisition”，收集到：

Original: X agreed to buy Y

Variant 1: X completed its acquisition of Y

Variant 2: X purchased Y

1.4.2扩展稀疏的人类参考数据用于评价(Expanding Sparse Human Reference Data for Evaluation)

在很大一部分NLP应用问题中，通过比较系统的结果与人类标注的数据来评价系统，这类应用有机器翻译和文档摘要。

在机器翻译中，采用人工标注的数据来评价翻译系统不够完整，毕竟人工标注的数据不能涵盖所有可能的翻译模式。例如翻译系统给出的结果S相比人工标注中的R不会具有高的score，尽管两者包含相同的语义内容：

S: We must consider the entire community.

R: We must bear in mind the community as a whole.

在文档摘要评价中，自动生成的摘要同样是跟人类自行标注的参考摘要进行比较。

1.4.3机器翻译(Machine Translation)

不仅应用于机器翻译系统评价，复述也被直接应用于提高机器翻译的过程。Callison-Burch,Koehn and Osborne在2006年采用自动生成复述来提高基于短语的统计机器翻译系统。这类翻译系统的工作原理将一个句子分隔成短语并且分别对短语通过查表进行翻译，翻译中允许没有译文的短语采用其复述短语的翻译，这样翻译系统的覆盖率得到提高。例如给定一个西班牙语句子包含短语“presidente de Brazil”，但是系统中不存在对应的翻译，此时另一个短语“presidente brasileno”是“predidente de B

最低0.47元/天解锁文章

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

仰望-NLQ CSDN认证博客专家 CSDN认证企业博客

码龄14年

23: 原创

32万+: 周排名

101万+: 总排名

6万+: 访问

: 等级

919: 积分

12: 粉丝

4: 获赞

2: 评论

19: 收藏

私信

关注

热门文章

分类专栏

最新评论

Linux下C语言编程利用RPC(Remote Procedure Call)快速实现分布式系统
善见致知: 博主你好！请问下RPC怎么通过zookeeper实现集群？我现在三台机器上都部署了zookeeper，但是不知道怎么把RPC的server端用上，求指教
An Introduction to Deep Learning (in Java)
adital: Hey, Adi from Team Toptal here. Thanks for sharing our writeup! Given the entire post is here I was hoping you'd edit it with an introductory paragraph of your thoughts and limit the post to only a few paragraphs with a link to the original article found here: http://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks Thanks!

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。