本文以前28天的数据作为训练数据训练lstm模型。_日本京都大学:半监督日语谓词-论元结构分析的神经对抗训练...

本文介绍了一种基于半监督神经对抗训练的日本语谓词-论元结构(PAS)分析模型,旨在解决日语零回指消解问题。京都大学的研究者在ACL 2018上提出此模型,通过对抗训练直接利用原始语料库,提高了日语PAS分析的准确性,尤其是对零代词的处理。模型包括生成模型和验证模型,两者相互作用提升性能,从而超越现有最佳模型。
摘要由CSDN通过智能技术生成

ACL 2018 Long Papers

半监督日语谓词-论元结构分析的神经对抗训练

Neural Adversarial Training for Semi-supervised Japanese Predicate-argument Structure Analysis

日本京都大学

Kyoto University

本文是日本京都大学发表于 ACL 2018 的工作。本文针对日语谓词-论元结构(PAS)分析中存在的零回指消解问题,摈弃传统耗费巨额代价构建PAS语料库的方法,提出了一种依赖原始语料库的,基于半监督对抗训练的日语谓词-论元结构PAS分析模型,实验证明本模型实验效果优于现有的最好模型。

f2cf8c10b9e12cd87deb03494a250015.png

1 引言

在日语和汉语等Pro-drop语言中,当可以从上下文和背景知识中推断出代词时,代词常常被省略。自然语言处理(NLP)任务用于检测这些省略的代词并搜索它们前缀的任务,称为零回指消解。这项任务对下游NLP任务,如信息提取和摘要生成等,都是必不可少的。

对于日语,零回指消解通常是在谓词-论元结构(PAS)分析内进行的,作为为谓词查找省略的论元的任务。PAS分析是为每个谓词找到一个论元的任务。对于日语PAS分析,一般处理ga(名词性,NOM),wo(宾格,ACC)和ni(受事格,DAT)的情况。为了建立日语PAS分析模型,使用标注语料库的的监督学习方法常基于形态语法线索进行分析。

然而,省略代词很少有线索,因此这些模型试图从标注语料库中了解谓词与其(省略)论元之间的关系。标注语料库由数万个句子组成,从这种小规模的语料库中很难学习到谓词-论元关系或选择偏好。解决这个数据稀缺问题的一个有前途的方法是用大量的原始语料库来增强模型。使用原始语料库有两种主要方法:预先从原始语料库中提取知识和使用原始语料库进行数据扩充。然而日语PAS分析的最新模型对零代词的准确率仅达到50%左右。

在本文中,我们为日语PAS分析提出了一个半监督神经网络模型,并采用神经对抗训练来直接利用原始语料库。我们的模型包括两个神经网络模型:日语PAS分析的生成模型和生成预测的“验证”模型。生成神经网络是使用基于RNN的特征和头部选择模型预测每个谓词的候选论元概率的模型。验证神经网络从发生神经网络获得输入并对它们进行评分。即使没有PAS的正确标注,这个验证模型也可以对生成模型进行评分。生成模型使用监督学习,整个网络使用基于原始语料库的无监督学习。

本文贡献总结如下:(1)一种新的PAS分析对抗训练模型;(2)从原始语料库中学习,作为外部知识来源;(3)因此获得了目前最好的日语PAS分析效果。

f2cf8c10b9e12cd87deb03494a250015.png

2 任务描述

日语PAS分析为每个谓词确定基本角色:谁对谁做了什么。在许多语言中,如英语,格角色主要由词序决定。然而,在日语中,词序是高度灵活的。在日语中,主要格角色是主格(NOM)、宾格(ACC)和受事格(DAT),它们大致与日语格标记

7e2918839d7d4596669370718318ef0b.png

相对应。这些格标记经常被隐藏,且论元也经常被省略。

我们展示了PAS分析的两个详细任务:格分析和零回指消解。在下表中,我们展示了四个日语句子和他们的PAS标签。PAS标签附加到每个谓词的主格、宾格和受事格。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值