复述识别的基本概念

一、复述定义

关于复述的定义,有很多的前人给予了不少的定义,诸如“概念上的近似等价”,“传达相同信
息的可替换形式”,“对应到相同意义的等价表达”等[3]。而最通俗易懂的还是“对相同语义
(对数据符号的解释)的不同表达[1]”。当然,这种复述的定义有些过于狭义,因此2013年的
时候,Bhagat和Hovy有为宽泛定义下的复述取名叫“准复述”:“使用不同的词语组成两个
句子,其所表述的意思大致相同”[4]。

二、复述现象[1]

细微变化:指功能词的增删与替换。
同义词语替换:指将原文中的短语替换成其同义短语。
词典注释替换:指将原文中的词替换成词典中的注释。
语序变换:指在不改变原文意思的前提下移动原文中某些成分的位置。如时间状语,
地点状语等不会改变句子意思的成分。
句子结构变换:并不是对原文中的个别成分进行简单的替换和变化,而是进行较大的改动。
以至于改动之后的句子结构会产生明显的变化。
句子拆分和合并:拆分是指将一个复杂的长句拆分为若干等价的简单短句,合并则恰恰相反。
其中从句的识别和指代消解等是比较关键的问题。
基于推理的复述:指那些需要使用某些背景知识才能正确识别和理解的复述。

三、复述的形式化定义[3]

假定两个句子A,B,若满足以下条件:
(1)A,B为同一种语言,且字面不完全相同;
(2)A,B分别是结构上稳定的句子;
(3)A,B所表述的含义相同。
则称A为B的一种复述,反之亦可。其中条件(3)为必要条件。

四、复述实例与复述规则

相关语料库:语料库中的多个文本为同一种语言且文本之间有信息的重叠。[3]
复述实例:从相关语料库中获取的一个互为复述的实例。复述实例中不含有任何变量,
例如“北京,一个美丽的城市”和“一个美丽的城市,北京”。(个人理解和[3])
复述规则:含有变量的一系列复述模板。例如“X,一个美丽的城市”和“一个美丽的城市,X”。
(个人理解和[3])
复述规则的获取:一是确定如何去表示一个复述规则,二是怎么获取复述规则。[3]
复述规则的获取的主要研究内容:如何将一个复述实例抽象泛化为复述规则。[3]

五、不同语言单位

词:指最小的能够独立运用的语言单元。(维基百科)
短语:指两个或两个以上词按照一定语法规则构成的语法单元。[3]
词语:指词和短语(又称词组)的合称。(维基百科)
词汇:指一种语言中所有的(或特定范围的)词和短语(两者合称词语)的总和。词汇是词
语的集合体,词汇和词语的关系是集体与个体的关系。(维基百科)
简单句:指只含有一套主谓宾结构的句子。[3]

六、复述与相似度之间的区别

首先得明白:两个句子是否互为复述与其之间的相似度大小没有必然的联系。
例如:“小明的生日是哪天?”和“小张的生日是哪天?”两个问题虽高度相似,但这是两个不
同的问题,询问的对象不同,该给予的回答也应该不同。就好比,不可以用“小张的生日是2
月30号”来回答“小明的生日是哪天?”。[3]
此外,“可爱的小明生日是2月30号”和“小明的生日是2月30号”,并不能称为狭义上的复述。
因为句1含有“可爱的”附加信息,他们只是局部同义或者说“准复述”。
局部同义的定义是指一个句子中的某个片段和另一个句子中的某个片段意义相同。[3]
目前复述检测方法大多都是基于句子语义相似度的,很少关注于复述现象本身。[2]

七、参考文献

[1]赵世奇,刘挺,李生.复述技术研究[J].软件学报,2009,20(08):2124-2137.
[2]李铂鑫,李鹏,齐保元,王斌,王丽宏.复述检测技术综述[J].信息安全学报,2020,5(05):95-109.
[3]刘挺,李维刚,张宇,李生.复述技术研究综述[J].中文信息学报,2006(04):25-32.
[4]Bhagat R. , Hovy E. . What Is a Paraphrase?[J]. Computational Linguistics, 2013, 39(3):463-472.
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值