句法依存分析_面向汉语中介语的依存句法标注规范

本文转载于微信公众号:语言监测与智能学习

论文介绍

论文名称:面向汉语中介语的依存句法标注规范

论文作者:肖丹,杨尔弘,张明慧,陆天荧,杨麟儿

发表于:第十八届中国计算语言学大会(CCL 2019)

-ONE-

简介

中介语指的是由于学习外语的人在学习过程中对于目的语规律所做的不正确的归纳与推论而产生的一个语言系统。这个语言系统既不同于学习者的母语,又区别于他所学的目的语,在这个过程中就产生了“偏误”,即中介语与目的语规律之间的差距。汉语中介语是汉语学习者在学习汉语的过程中产生的一种特殊的语言系统,包含大量不规范语言。由于中介语在语言使用上有其独特性,使得这些语料成为语言信息处理和智能语言辅助学习的独特资源。

efbb5d81e35c5d2c750e0c264191b0aa.png

(图片来源网络)

依存分析是语言信息处理和智能语言学习的重要步骤。依存语法以其形式简洁、易于标注、便于应用等优点,被广泛应用于语料标注中。面向英语中介语的依存语法标注语料已经有很好的应用,而现有汉语中介语语料库对句法的关注度普遍较低,并且缺乏一个充分考虑汉语中介语特点的依存句法标注规范。

b68368a813e8c793363939e04439dd9f.png

本研究面向汉语中介语的依存句法分析,建构汉语中介语依存标注语料库,探讨了依存标注规范,并在充分借鉴国际通用依存标注体系(Univrsal Dependencies)的基础上,对汉语的特殊词性、句法结构、汉语中介语特性以及标注一致性等问题做了较为全面的考虑,并制定了面向汉语中介语的依存句法标注规范,主要包括标注框架和标注原则两大部分。

-TWO-

标注框架

我们在充分借鉴UD V2的基础上,制定了更加适应汉语特点的标注框架,包括词性和依存标签。

汉语中特殊词性的标注方法

方位词、量词、连词等都是汉语中独有或与其他语言区别较大的特殊词性现象,现有的汉语树库缺乏对这种现象的充分考虑。对此,我们提供了对应的标注方法。以方位词为例:

1d0fff73858b8c3d077ff125dcb4cb37.png

方位词是汉语中一种特殊现象,属于名词类别,表示位置和方向,例如:“上、下、以前、以后”等。当方位词处于框式介词结构中,我们认为方位词粘着性较强,具有介词的性质,因此将方位词当作介词处理,标为ADP,如图1。其他情况下,方位词的名词属性较为强烈,我们仍当作名词处理,标注为NOUN,如图2。

面向汉语中介语的依存关系标签

UD V2一共包含36个依存关系标签,根据汉语句法结构特点,我们保留了29个主类标签,增加了8个次类标签,以便更好地描写汉语句法结构。在此基础上,结合汉语句法理论我们将上述依存关系标签分为三大类:单句主干关系标签、单句其他关系标签、嵌套关系标签,解决了UD缺乏理论体系的问题,使之体系化。

38882c488ffe093798c0327d07ed9da6.png

(仅列部分,详细标签请见论文)

面向汉语特殊结构的标注策略

汉语中存在一些不同于印欧语言的特殊结构,如连谓、兼语、“是……的”等。为了准确刻画这些结构,我们提出了面向汉语特殊结构的标注策略。

以兼语短语为例:

af372447da3c9b7d63eae10f9165557c.png

图3 兼语句标注示例

由兼语短语充当谓语或独立成句的句子叫兼语句,例如:他有个妹妹很能干。“妹妹”既是“他”的宾语又是“能干”的主语。如果采取直接标注的方式,会造成一个词有两条入弧。因此,为了解决这种特殊现象,我们规定:把兼语短语看作是对前一个动词的补充说明,标为xcomp(不同主语),如图3所示。

-THREE-

标注原则

为了处理汉语中介语中的不规范现象,我们在充分吸取前人研究成果的基础上,提出了更为准确、细致的标注原则,即:对语法上不具有可解释性的中介语,根据偏误纠正后获得的目标句进行词性标注和依存句法分析;对语法上具有可解释性的中介语,根据观察到的句法结构对其进行词性标注和依存句法分析。

语法上不具有可解释性中介语

根据目标句进行词性标注和依存句法分析

语法上不具有可解释性,我们分为两种情况:

1)无法判断所观察到的语言现象的句法结构

无法判断其句法结构,是指由于书写错误或用词错误等导致的无法正常理解其句法结构的情况,主要包括音近形近具有相同语素成语成分缺失或赘余。对此,我们根据目标句进行词性标注和依存分析。

例如:

e510e0087e51fc038b68cc95c4bddaac.png

图4 不具有可解释性示例 -1

“了”是“了理”和“了解”的共有语素,但“了理”是不合法且无法从字面获取有效信息、判断其句法结构的语言现象,我们选择根据目标句进行标注。

2)可以判断所观察到的语言现象的句法结构,但是其句法结构不符合语法规则。

可以判断句法结构但其句法结构不符合语法,指的是我们可以通过语言现象判断其句法结构,但是由于用词错误或句式杂糅等导致其不符合语法规则,我们根据目标句进行词性标注和依存分析。

例如:

b7a56a8aa4b13d87fb5a2ab49482f321.png

图5 不具有可解释性示例 -2

“和解”是一个不及物动词,后面不能带宾语,但是可以判断这句话是一个带宾语的谓语句。所以,我们规定根据目标句进行标注,即把“和解”当作“化解”,“难题”作为“化解”的宾语,标为obj。

语法上具有可解释性中介语

根据原句进行词性标注和依存句法分析

对语法上具有可解释性中介语,我们能够从所观察到的语言现象中获取有效信息来判断句法结构,并且句法结构符合语法规则。此时,我们根据所观察到的语言现象进行词性标注和依存句法分析。

例如:

4b6a277180611d611c2cc2e8871de29f.png

图6 具有可解释性示例

定中结构的中心语冗余,使得 “忆起”和“回忆”在语义上不能搭配,但是合乎语法规则。因此,“回忆”作为“忆起”的宾语,标为obj;“童年”作为名词修饰语修饰多余的中心语“回忆”,标为nmod。

-FOUR-

结语

制定面向汉语中介语的依存句法标注规范对于汉语国际教育以及构建服务于自然语言处理领域的语言资源来说具有十分重要的意义。本文在HSK动态作文语料库提供的学习者作文文本基础上,制定了面向汉语中介语的标注规范,并抽样一部分语料进行人工标注,所有语料都保持了原始面貌,没有经过任何处理。

6adceb648c86106a6e669a16e044f6b4.png

编辑:陆天荧

6adceb648c86106a6e669a16e044f6b4.png

今日责编/一场游戏一场梦

ed2f26d98d2a1c5eb9c93c6948f7a55e.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值