Cross-lingual Transfer of Correlations between Parts of Speech and Gaze Features 阅读笔记

32 篇文章 1 订阅
6 篇文章 0 订阅

Cross-lingual Transfer of Correlations between Parts of Speech and Gaze Features

0723 COLING 2016

Abstract

最近的几项研究表明,阅读过程中的眼球运动提供了关于语法和句法处理的信息,这有助于NLP模型的诱导。然而,所有这些研究都仅限于英语。这项研究表明,注视和词性(PoS)的相关性在很大程度上在英语和法语之间转移。这意味着我们可以复制之前关于法语中基于注视的PoS标记的研究,但我们也可以使用英语注视数据来帮助法国NLP模型的诱导。

1 Introduction

在正常的,熟练的阅读过程中的眼球运动反映了与阅读相关的处理负荷。最近,眼动数据已被整合到自然语言处理模型中,用于弱监督词性(PoS)归纳、句子压缩、监督PoS标记和监督分析。

Barrett等人使用了一个大型眼球跟踪语料库的英语部分,即Dundee语料库,对英语进行弱监督PoS诱导,与没有注视特征的基线相比获得了显著改善。他们使用了二阶隐马尔可夫模型,该模型受维基词典的类型约束。这些结果表明,一种方法,仅使用字典和眼动数据的弱监督的PoS诱导。这种方法将适用于资源匮乏的语言,因此很难找到专业的注释者。

本研究进一步探讨了本地读者对PoS的处理在多大程度上适用于相关语言。作者使用了与Barrett等人类似的模型,但对邓迪语料库中的法语和英语部分进行了跨语言实验。

Contribution

本文第一个探索告知PoS模型的本地读者的眼球运动如何从一种语言泛化到另一种语言的研究。作者还介绍了一种新的资源来研究法语语法类和眼球运动之间的关系:通过调整法国树库的形态句法注释,提供了大多数法国Dundee语料库的PoS注释。

2 Data preparation

本实验使用的数据是Dundee语料库的英语和法语部分。Dundee语料库是按标记计数计算的最大的可用眼动语料库。对于英语和法语,每种语言的母语为10人,他们阅读了20篇来自《独立报》(《英语》)或《世界报》(法语)的报纸文章。该语料库包含每种语言约5万个token。

对于Dundee语料库中的英语和法语部分,最初的符号化遵循文本的视觉单位,缩写和标点符号附加在它们属于其视觉单位的单词上。例如,s’entendre or rappelle-t-il在法国语料库中是一个token,而在法国树库中分别是2和5个标志。在英国的Dundee语料库中,don’t! 是一个token,但在邓提树库有三个。因此,眼球运动测量只适用于整个视觉单位。作者通过复制所有包含Dundee token(即一个视觉单元)的树库token的眼动测量方法来解决这个问题。这与Barrett等人使用的方法相同。因此,在pos标记版本的Dundee语料库中,标记的数量增加了;此外,一些标记与眼动测量有关,反映了多个标记的处理。

对于英语来说,树库tokenization导致token增加13.8%,达到58,599个token。对于法语来说,树库tokenization导致token增加了17.7%,达到56,683个token。对于英语训练集,76%的Dundee语料库token被映射到一个树库token。62%的法语邓迪语料库token也是如此。

2.1 English

The Dundee Treebank是一个最近的手册,语法注释层,用于Dundee语料库的英语部分,遵循通用依赖形式主义。对于评估,本文使用该资源中的PoS标签,将Dundee树库中使用的宾夕法尼亚州树库标签集自动映射到通用PoS标签集。

英语Dundee语料库的训练、开发和测试集与Barrett等人使用的分割相同,80%的标记用于训练,10%的标记用于开发和测试,而没有分割句子。这种分裂的结果是1896个句子中的46879个,230个句子中的5868个,241个句子中的5832个。

2.2 French

Dundee语料库的法语部分的文本最初来自French Treebank1.4版,作者为这个实验重新对齐了两个语料库。首先手动识别了法国树库的相关子集(它是不连续的)。Dundee语料库的一小部分(2518个标记,相当于法国Dundee token的5.31%)在法国树库中无法不到,因此在实验中省略。只有整个句子都被删除了。法国树库的形态句法注释通过一组启发式规则和手动修复所有异常,与Dundee语料库进行了半手动对齐。由于法国树库和Dundee语料库的标记化不一致,需要人工干预。

对于法语,有一些树库token没有token字符串,只有PoS,引理等。例如,du应该被分割为de和le,但在某些情况下缺少le的标记字符串。这些缺失的标记在这个实验中被省略了。

法国Dundee语料库没有训练开发测试。本文使用了与英语类似的方法,前80%的token用于培训,后10%的token用于验证,最后10%用于测试。没有一个句子被分成不同的几组。结果是1585个句子中43383个token进行训练,240个句子中5407个token进行开发,178个句子中5444个token进行测试。

法国树库的标签集被自动映射到通用PoS标签集。作者在https://bitbucket.org/lowlands/release上提供了法国邓迪语料库的对齐、形态语法注释。

2.3 Reading differences between English and French

本节讨论现有的比较法语和英语阅读的研究结果。这两项主要的研究使用了这两个Dundee语料库来进行分析。Pynte和Kennedy比较了法语和英语Dundee语料库的眼球运动,以探索五种眼动指标上的局部效应(如单词频率、单词长度、局部语境)和全局效应(如可预测性、阅读策略、检查策略)。

他们首先注意到,法语的阅读速度比英语慢,注视时间更长。这种效应是显著的,对于长单词更明显,与英语相比,法语也有更多的重新注视。Kennedy and Pynte认为,重新定位反映了法语和英语之间最关键的区别。除了在对目标单词的处理上有明显的差异外,更多的重新注视也能增强对下一个单词的预览。Pynte和Kennedy报告说,英语和法语实验的参与者匹配(虽然不是因素),包括校准技术、设备、控制软件,指令,和数据缩减软件,是相同的语言,尽管法国数据收集在艾克斯普罗旺斯,法国和英语数据在Dundee,UK。因此,他们将这种差异归因于文本本身。尽管他们发现法语单词(5.2个字符)平均比英语单词(4.7个字符)长,且法语单词(19.7%)多于英语单词(17.2%)。因此,Kennedy and Pynte认为,阅读上的差异是由于信息在一个给定单词的字母中的分布,而这在这两种语言中是不同的。例如,在法语中,终端重音、病例标记、性别和时态标记传达了关键的形态学信息。这与他们的发现是一致的,即Dundee语料库中英语部分的眼球运动对下一个单词的长度更为敏感,而法语则对单词开头的三字组的信息量有同等的影响。

总体而言,Pynte and Kennedy认为英语和法语的检查策略非常相似,这与Sparrow等人在另一个134个法语单词的眼动语料库上测试英语EZ阅读器模型时得出的结论相同。Kennedy和Pynte提供了英语和法语之间的统计差异的分析,但除了在法语中更频繁,他们似乎得出结论,阅读在许多方面是相似的,这也支持了他们选择主要联合分析法语和英语。

树库注释包含了句子边界,这使得比较两种语言的句子的长度和复杂性成为可能。我们发现,英语训练集的平均句子长度为24.7个标记(SD13.1)。对于法语来说,它是28.7代币(SD17.8)。Pynte和肯尼迪(2005;2006)没有考虑句子长度。句子越长的结果是阅读难度越大。科尔曼-Liau指数(科尔曼和Liau,1975)的英语训练集为10.38,法国人为12.98。这可能源于《世界报》和《独立报》中不同的写作风格,或者是一种有偏见的文章抽样。

这个结论只能说,法语和英语的读者在匹配的条件下阅读文本时,可以显示出或多或少相似的检查策略。一些影响,例如,单词首字母在法语中比在英语中更重要,可能是由于两种语言拼写的跨语言差异,导致重新固定以增加预览。但阅读速度较慢也可能是由于法语语料库中存在更困难的文本。有关不同语言间的语法处理差异的进一步讨论,请参见第7节。

2.3.1 Comparing reading of PoS for English and French

下一节中提供的统计数据是根据法语和英语训练集计算的,并扩展了第2.3节中关于PoS的比较。作者表明,PoS类在两种语言中的总体读取是相似的,由于系统偏差很少例外。

在这里插入图片描述
在这里插入图片描述

图1显示了英语和法语数据中PoS类的分布情况。最大的区别是在法语中没有NUM标签。这是由于注释方案和我们的自动映射,其中没有标签映射到NUM。与英语相比,法国的数据中的粒子也很少。

图2显示了两种不同的阅读指标的箱形图:注视的次数和第一次通过的持续时间,跨越了英语和法语的PoS类。第一次通过持续时间是第一次通过文本的固定持续时间之和。这种方法据说包括了早期的句法和词汇处理。注视的数量包括重新注视和回归到一个标记,并反映了后来的句法和语义处理。

请注意,标点符号几乎总是粘在一个单词上,而标点符号上的任何眼球运动都将主要反映——如果不是完全反映的话——反映其他符号的处理过程。因此,图2中排除了标点符号。

当比较图2d和图2b时,可以证实Pynte和Kennedy的发现,法国部分的注视通常比Dundee的英国部分更长。训练集的平均注视时间为英语为236 ms,法语为303 ms。

从图2中可以看出,大多数类的PoS的度量直观地不同。例如,CONJ、ADP、PRON和DET等短类、频繁类单词的PoS类比NOUN、VERB、ADJ和ADV的注视时间更少、更短。这似乎在两种语言中都是一致的,并符合对英语的类似分析,即对来自五个不同领域的自然发生的文本的一个较小的数据集。

PRT类别似乎是个例外。在法语中,PRT似乎需要广泛的早期和晚期处理。请记住,从图1中看出,英语的PRT更多(3.6%),法语的PRT更少(0.05%)。两种语言的PRT词集显示了注释方案或自动映射中的系统偏差。对于法语训练集,PRTs的集合是{vice-, pseudo-, post-, contre-, anti-,non-, quasi-, sovi´eto-, supra-, n´eo-, inter-}。对于英语来说,它是{off, down, To, about, on, in, over, around,back, up, out, to, away, , ’s}。因此,法国的粒子总是至少两个标志性的视觉单位,似乎非常长,而英国的粒子则短而频繁。

3 Features

在我们的弱监督PoS标记实验中,我们使用了22个注视特征来测量早期处理和晚期处理。它们相当于Barrett等人使用的22个注视特征。早期加工措施被认为反映了早期句法和语义加工的不同方面,包括第一次通过时间和第一次注视时间。后期处理度量反映了后期句法和语义整合。

非注视特征通常包含在眼球运动模型中,因为它们解释了许多注视时间的许多差异。Word频率和单词长度一起可以解释平均注视时间的69%的方差。与Barrett等人一样,作者使用单词长度、来自一个大语料库的日志单词频率和来自目标单词的Dundee训练集的日志单词频率,以及前一个单词和下一个单词。从邓迪训练集中,作者还提取了正向和向后过渡概率,即给定下一个或前一个单词的条件概率。本文非凝视特征几乎等同于Barrett等人。唯一的区别是,他们还使用了来自一个大语料库的正向和反向过渡概率。

大的语料库日志频率来自British National Corpus,用KenLM和法语的Lexique提取。使用CMU语言建模工具包4和Witten-Bell平滑,在各自的训练集上计算Dundee对数频率。

本文总共有29个特征。所有特征首先在语料库的所有10个阅读器上取平均值,然后通过最小缩放来缩放到0到1之间的值。Barrett等人的特征消融研究的最佳模型使用了所有特征,这表明广泛的PoS类别的语法处理反映在许多特征上,也需要非凝视特征。

4 Experiment

作者复制巴雷特等人的工作,使用最好的模型从Li等人,二阶隐藏马尔可夫模型最大熵排放(SHMM-ME)受维基标签,这样排放局限于允许的维基标签鉴于token存在于维基。Li等人报告说,与无监督方法相比,维基禁忌有相当大的改进。

二阶模型包括来自一阶模型的转移概率以及二阶先行状态的转移概率。作者使用了Li等人的原始实现,我们还包括了他们的单词级特征的一个子集,即,检测连字符、数字、标点符号和大写的四个特征。我们忽略了Li等人的三个后缀特征。这是他的基本特征模型,因为这些特征不会跨语言传输。Barrett等人也包括了这些特征。

作者使用李等人提供的英语维基转储。法国维基转储来自Wisniewski等人,不包括任何标点符号。因此,作者用英语维基词典中的所有标点符号来增加它。此外,标记ADP的标记在法国维基词典中完全缺失,而类DET的标记则非常稀疏。因此,作者将从法国训练集中获得的DET和ADP的所有例子添加到法国维基词典中。对于跨语言实验,作者使用法语和英语维基词典词典的结合。Barrett等人使用Li等人的模型,对英语注视特征对PoS诱导进行弱监督,并进行了模型调优和特征消融。作者使用它们的最佳超参数设置,即5次EM迭代,以及最好的特征组合:所有特征。继Barrett等人之后,作者尝试了token级和类型级的特性。对于标记级实验,每个标记都由其特征向量表示。对于类型级实验,每个标记由训练集中所有低单词类型的特征向量的平均值表示。

5 Results

训练集和测试集上所有训练和测试语言组合的标记精度如表1所示。

对于所有条件,类型级特性比标记级别工作得更好,尽管FR-EN的类型级比基线的改进并不显著。

英语单语条件加上suff-修复几乎等同于Barrett等人中的最佳模型。唯一的区别是在第3节中描述的两个缺失的非注视特征。在测试集上,他们报告的基线精度为79.77,token级精度为81.00,类型级精度为82.44,这与我们的结果一致。我们观察到,后缀特征似乎在单语情况下有帮助。对于单语条件,我们确认类型级的注视特征和令牌级的特征优于基线。这些差异是显著的,除了EN-EN标记级别加后缀条件。

FR-FRPoS标记似乎比EN-ENPoS标记稍微容易一些,总体上实现了更高的准确性。跨语言条件的表现通常低于单语条件。在英语训练和法语测试时,token级和类型级的条件都明显优于基线。

6 Error Analysis

正如预期的那样,在使用跨语言注视数据时会有更多的错误。本节将通过比较跨语言实验的预测和单语言实验的预测来探讨这些错误。所有的分析都是关于类型级模型的开发集输出的。我们将它们与类型级单语模型的输出进行了比较

在这里插入图片描述

图3显示了使用相同测试集的实验进行比较的每个PoS类的准确性分数。标点的准确性是由于基本特征模型和维基词典的约束,而不是眼球运动测量。与EN-EN相比,PRT和NUM是FR-EN面临的真正挑战。这可以假定是由于在第2.3.1节中描述的法国数据集中,PRT标记和缺失的NUM类的不同使用所致。ADJ似乎也是一个跨语言的挑战,尽管在英语和法语训练上比其他方法更困难。

在这里插入图片描述

图4显示了每个黄金PoS标签的错误预测,使我们能够比较不同实验中的错误类型。当比较图4a和图4c时,两者都用英语评估,大多数类似乎有几乎相同的错误分类标签,尽管有些标签的大小或比例不同,取决于他们是用英语还是法语训练。主要区别在于:在法语训练中,ADP和ADJ通常更容易被误分类,ADP不主要被误分类为CONJ,而更多为ADV,DET也被误分类为VERB和ADV,PRT被误分类为ADV,而不是主要为ADP。

当比较图4b和图4d时,两者都评估了法语,我们还发现,对于许多PoS类,错误分类是相同的类型,尽管在大小或比例上不同。在英语训练时,我们观察到的主要区别是:ADJ主要被误分类为NOUN,而不是ADP、ADV、DET、NOUN和PRT;ADV被误分类为VERB;DET从不被误分类为PRT,但更多的是被误分类为NOUN和ADJ;NOUN很少被误分类为PRT。最后一个错误可能与法国数据中PRT的注视时间较长

在这里插入图片描述

表2显示了所有注视特征的英文和法语pos平均注视向量之间的余弦相似性。这就提供了关于法语和英语诗人的注视特征平均值不同的信息。Pynte和Kennedy(2006)发现法语比英语有更多的重新定位,而英语在表格中被重新引用。与再注视相关的测量方法,如重读概率、注视次数和总注视时间,在不同的语言中自然也是不同的。第一次通过的持续时间与再注视的次数并不直接相关,必须被认为是一种独特的模式。

6.1 Wiktionary agreement

图5显示了英语和法语开发集的单词类型,根据它们在各自的单语维基词典中的表示。这个数字的灵感来自于Li等人(2012)。对于英语,更多的职业生涯类型同意维基词典(相同或子集的wik),而不是法语。我们还计算了token级别的准确性,其中由维基词典许可的标签计算是正确的。对于法语开发集,这个最大的字典精度是0.95,而对于英语,它则是0.92。

image-20220723094402171

7 Discussion

我们在单语和跨语言设置中进行了四个PoS诱导实验。我们的实验证实了Barrett等人(2016)的主要结论,即类型水平的注视向量改善了PoS诱导。我们在英语中复制了他们的结果,并在训练英语注视矢量时,在法语和法语中报告了同样的发现。

很难确定法语和英语语言的相关性在多大程度上决定了该模型的跨语言概括的能力。心理语言学文献并没有揭示不同的PoS类别是如何处理的;文献中的大多数实验工作研究一种语言的单一现象。例如,在反应时间研究词汇决策任务已经发现英语复数和单数名词的处理受表面频率只有6,而荷兰和法语,单数和复数名词的词汇处理受基本频率7。因此,英语数据支持全存储的认知模型,而法语和荷兰的数据支持并行双路径模型,即一个单词被处理为片段,与整个单词处理并行处理。这些结果表明,母语为不同语言的人的大脑中对名词的处理是不同的。这意味着我们的研究结果可能不适用于其他语言的组合,而在名词的具体情况下,这表明荷兰语和法语名词的处理方式比法语和英语更相似。

8 Conclusion

本文是第一个探索凝视特征是否从一种语言推广到另一种语言的一套广泛的语法类别的研究。作者使用类型约束的二阶HMM对邓迪眼球追踪语料库的英语和法语部分进行单语和跨语PoS诱导。作者对标记级和类型级特征进行了实验,证实了类型级凝视特征可以了英语和法语的单语PoS诱导。作者还发现,类型水平的注视特征显著提高了法语的PoS诱导,即使该模型是在英语注视向量上进行训练的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值