生成-语法错误纠正
文章平均质量分 91
nopSled
一周一更
展开
-
Parallel Data Augmentation for Formality Style Transfer翻译
摘要在风格样式迁移任务中取得进展的主要障碍是训练数据的不足。在本文中,我们研究如何扩充平行数据,并为此任务提出了简单的数据扩充方法,以通过易于访问的模型和系统获得有用的句子对。实验表明,当我们使用增强的平行数据对模型进行预训练时,它们在很大程度上有助于改善风格样式的迁移,从而在GYAFC基准数据集中提供了最新的结果。1.介绍 风格样式迁移(FST)的定义是将一种风格样式的文本自动转换为另一种风格的文本的任务。例如,在给定非正式句子的情况下,FST旨在保留与样式无关的内容并输出正式句子。 先前的翻译 2021-03-23 13:06:30 · 475 阅读 · 0 评论 -
Non-Autoregressive Grammatical Error Correction Toward a Writing Support System翻译
摘要将语法错误纠正(GEC)应用于写作支持系统存在几个问题。首先第一个问题是处理不完整句子。直到现在,GEC对不完整句子的表现还不为人所知。因此,我们分析了每个模型对不完整句子的表现。另一个问题是纠正速度。当速度很慢时,系统的可用性会受到限制,并且用户体验会下降。因此,在本研究中,我们也将重点放在非自回归(NAR)模型上,这是一种广泛研究的快速解码方法。我们使用传统的自回归模型和最近的NAR模型在日语中执行GEC,并分析其准确性和速度。1.介绍语法错误纠正(GEC)是语言学习者的一种写作支持方法。近年翻译 2021-03-19 10:28:37 · 276 阅读 · 0 评论 -
Few-Shot Domain Adaptation for Grammatical Error Correction via Meta-Learning翻译
摘要1.介绍2.方法2.1 GEC领域适应2.2 通过元学习来小样本GEC领域适应翻译 2021-03-15 17:24:21 · 417 阅读 · 0 评论 -
Chinese Grammatical Error Diagnosis with Graph Convolution Network and Multi-task Learning翻译
摘要本文介绍了我们参与的Chinese Grammatical Error Diagnosis (CGED) 2020 shared task。对于检测子任务,我们提出了两种基于BERT的方法:1)使用句法依赖树来增强模型性能,以及2)在多任务学习框架下结合序列标注和序列到序列(seq2seq)模型。对于纠正子任务,我们利用屏蔽语言模型,seq2seq模型和拼写检查模型根据检测结果生成纠正。在检测的识别级别和位置级别,我们获得top-3纠正的最高召回率和第二高的F1分数。1.介绍中文已经成为全世界有影翻译 2021-03-09 12:56:31 · 691 阅读 · 0 评论 -
Combining ResNet and Transformer for Chinese Grammatical Error Diagnosis翻译
摘要1.介绍2.中文语法错误检测3.方法3.1 错误检测3.2 错误纠正翻译 2021-02-20 20:00:35 · 789 阅读 · 0 评论 -
Improving Grammatical Error Correction with Data Augmentation by Editing Latent Representation翻译
摘要在语法纠错任务中结合数据增强方法已经引起了广泛的关注。然而,现有的数据增强方法主要将噪声应用于字符,这导致所产生的错误缺乏多样性。鉴于此,我们提出了一种新的数据增强方法,该方法可以将噪声应用于句子的潜在表示。 通过编辑语法句子的潜在表示,我们可以生成具有各种错误类型的合成样本。结合一些预定义的规则,我们的方法可以大大提高现有语法错误校正模型的性能和鲁棒性。我们在GEC任务的公开基准上评估了我们的方法,并且该方法在CoNLL-2014和FCE基准上达到了最先进的性能。1.介绍语法错误纠正(GEC)是翻译 2021-02-19 16:14:28 · 602 阅读 · 0 评论 -
Generating Diverse Corrections with Local Beam Search for Grammatical Error Correction翻译
摘要在这项研究中,我们提出了一种集束搜索方法,以在源句和目标句中的大多数字符是重叠的这种局部序列转换任务中获得多样化的输出,例如在语法错误校正(GEC)中。在GEC中,最理想的是仅重写必须重写的局部序列,同时保持正确的序列不变。但是,现有的获取各种输出的方法着重于修改句子的所有字符。因此,现有方法可能会迫使整个句子被更改而生成非语法语句,或者通过削弱约束以避免生成非语法语句而生成非多样化的语句。考虑到这些问题,我们提出了一种方法,该方法不重写文本中的所有字符,而仅重写需要进行各种纠正的那些部分。我们的集束翻译 2021-01-29 16:12:46 · 244 阅读 · 0 评论 -
A Comparative Study of Synthetic Data Generation Methods for Grammatical Error Correction翻译
摘要语法错误纠正(GEC)与纠正书面文本中的语法错误有关。当前的GEC系统,即那些利用统计和神经机器翻译的系统,需要大量带注释的训练数据,而这可能是昂贵的或不切实际的。这项研究比较了BEA-2019语法纠错共享任务中在受限和低资源赛道中两个得分最高的提交者使用的合成数据技术。1.介绍语法错误纠正(GEC)是自动纠正书面文本中的语法错误的任务。最近,在统计机器翻译(SMT)和神经机器翻译(NMT)方法的框架内,特别是在英语GEC方面取得了重大进展。这些方法的成功可以部分归因于几个大型训练集的可用性。翻译 2021-01-26 18:39:37 · 689 阅读 · 0 评论 -
Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting翻译
摘要在本文中,我们通过将序列跨度重写(SSR)作为自监督序列到序列(seq2seq)的预训练目标,来泛化文本填充(例如,屏蔽语言模型)。SSR通过监督模型将不正确的文本跨度内容重写为真实内容,为文本表示提供了更细粒度的学习信号,它比用许多下游seq2seq任务(将源句子重写为目标句子)填充文本更为一致。我们在各种seq2seq任务上使用T5模型进行的实验表明,SSR可以大大改善seq2seq的预训练。此外,我们观察到,SSR在使用功能强大的不完善跨度生成器来改进小型seq2seq模型的预训练方面特别有用,翻译 2021-01-26 17:37:42 · 306 阅读 · 0 评论 -
Adversarial Grammatical Error Correction翻译
摘要语法错误纠正(GEC)的最新工作利用了神经机器翻译(NMT)的进展,从语法错误和纠正的句子的平行语料库中学习重写,从而获得了最新的结果。同时,对抗生成网络(GAN)通过学习直接最小化人类生成的文本与合成的文本之间的差异,已经成功地在许多不同的任务中生成了真实的文本。在这项工作中,我们使用generator-discriminator框架,提出了一种GEC对抗学习的方法。生成器是一个Transformer模型,经过训练可以生成语法正确的句子(给定语法错误的句子)。判别器是一个句子对分类模型,经过训练可以翻译 2021-01-20 17:33:31 · 470 阅读 · 1 评论 -
Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in GEC翻译
摘要本文研究如何有效地将诸如BERT的预训练MASK语言模型(MLM)合并到用于语法错误校正(GEC)的编码器解码器(EncDec)模型中。这个问题的答案并不像人们期望的那么简单,因为将MLM合并到EncDec模型中的以前的通用方法在应用于GEC时可能存在弊端。例如,GEC模型的输入分布可能与用于预训练MLM的语料库有很大不同。但是,以前的方法未解决此问题。我们的实验表明,我们提出的方法(首先使用给定的GEC语料库对MLM进行微调,然后将经过微调的MLM的输出用作GEC模型中的其他功能)使MLM的收益最大翻译 2021-01-16 13:13:56 · 435 阅读 · 0 评论 -
BERT Enhanced Neural Machine Translation and Sequence Tagging Model翻译
摘要本文介绍了UNIPUS-Flaubert团队的混合系统,用于NLPTEA 2020中国语法错误检测(CGED)的共同任务。作为一项具有挑战性的NLP任务,CGED最近引起了越来越多的关注,但尚未充分受益于功能强大的基于BERT的预训练模型。我们通过试验三种类型的模型来探索这一点。位置标记模型和纠正标记模型是在预先训练的基于BERT的模型上进行了微调的序列标记模型,其中前者侧重于检测,定位和分类错误,而后者侧重于校正错误。通过将BERT融合模型转移到纠正任务,我们还利用了基于BERT的模型的丰富表示,并翻译 2021-01-09 17:19:36 · 554 阅读 · 0 评论 -
Seq2Edits: Sequence Transduction Using Span-level Edit Operations翻译
摘要翻译 2021-01-05 10:27:32 · 1640 阅读 · 0 评论 -
Context is Key: Grammatical Error Detection with Contextual Word Representations翻译
摘要非母语写作中的语法错误检测(GED)要求系统识别语言学习者书写的文本中的各种错误。由于GED数据集的大小有限且标签分布高度不平衡,因此将错误检测作为纯监督任务可能具有挑战性。基于上下文的词表示提供了一种可能的解决方案,因为它们可以有效地捕获语言中的组合信息,并且可以针对大量无监督的数据进行优化。在本文中,我们对一系列公共GED数据集进行了ELMo,BERT和Flair嵌入的系统比较,并提出了一种方法可以有效地将这些表示形式集成到当前方法中,从而在GED上达到最新水平。我们将进一步针对现有任务分析不同上翻译 2020-12-30 19:16:35 · 321 阅读 · 0 评论 -
Improving the Efficiency of Grammatical Error Correction with Erroneous Span Detection翻译
摘要我们提出了一种独立于语言的新颖方法,通过将GEC任务分为两个子任务来提高语法错误纠正的效率:错误跨度检测(ESD)和错误跨度校正(ESC)。ESD使用有效的序列标注模型来识别语法错误的文本范围。然后,ESC利用seq2seq模型将带有错误跨度注释的句子作为输入,并仅输出这些跨度的校正文本。实验表明,我们的方法在英语和中文GEC基准中的性能均与常规seq2seq方法相当,推理时间不到50%。1.介绍 由于近年来可用的错误纠错的并行语句数量不断增加,具有编码器-解码器架构的序列到序列(seq2se翻译 2020-12-26 14:11:06 · 418 阅读 · 0 评论 -
Parallel Iterative Edit Models for Local Sequence Transduction翻译
摘要我们针对诸如语法错误校正(GEC)之类的任务中出现的局部序列转换问题,提出了并行迭代编辑(PIE)模型。最近的方法是基于流行的编解码器(ED)模型进行序列到序列学习的。ED模型自回归地捕获输出字符之间的完全依赖关系,但由于顺序解码的特性导致较慢的解码速度。PIE模型进行并行解码,放弃了对输出中的完全依存关系进行建模的优势,但由于以下四个原因,其与ED模型相比具有很高的准确性:1.预测编辑而不是字符; 2.标记序列而不是生成序列; 3.迭代地完善预测以捕获依赖性,4.通过编辑将logits分解为因数及其翻译 2020-12-21 20:08:11 · 453 阅读 · 0 评论 -
Cross-Sentence Grammatical Error Correction翻译
摘要在过去的十年中,自动语法错误纠正(GEC)研究取得了显着进展。但是,所有现有的GEC方法都通过仅考虑单个句子并忽略关键的跨句子上下文来纠正错误。某些错误只能使用跨句上下文可靠地纠正,并且模型还可以从其他上下文信息中受益,以纠正其他错误。在本文中,我们解决了现有方法的严重局限性,并通过适当地建模更广泛的上下文来改进强大的神经编码器-解码器模型。我们采用辅助编码器,该辅助编码器对先前的句子进行编码,并通过注意力和门控机制将编码合并到解码器中。我们的方法在多个测试集基准上,在总体GEC性能方面取得了显着的改翻译 2020-12-16 14:06:36 · 462 阅读 · 0 评论 -
Encode, Tag, Realize: High-Precision Text Editing翻译
摘要我们提出使用LASERTAGGERLASERTAGGERLASERTAGGER,这是一种序列标记方法,可将文本生成转换为文本编辑任务。通过使用三个主要的编辑操作从输入中重构目标文本:保留字符,删除字符以及在字符之前添加短语。为了预测编辑操作,我们提出了一个新的模型,该模型将BERT编码器与自回归Transformer解码器结合在一起。该方法在英语文本上评估了以下四个任务:句子融合,句子拆分,文本摘要和语法纠正。LASERTAGGER在其中的三个任务上取得了最新的技术成果,可与具有大量训练数据的一系列强翻译 2020-12-14 13:09:03 · 578 阅读 · 0 评论 -
MaskGEC: Improving Neural Grammatical Error Correction via Dynamic Masking翻译
摘要语法错误纠正(GEC)是一种很有前途的自然语言处理(NLP)应用,其目的是将具有语法错误的句子更改为正确的句子。神经机器翻译(NMT)方法已被广泛应用于这种类似于翻译的任务。但是,这种方法需要相当大的带有错误注释句子对的平行语料库,这在汉语语法错误纠正领域尤其不容易获得。在本文中,我们提出了一种简单而有效的方法,通过动态MASK来改进基于NMT的GEC模型。通过在训练过程中将随机MASK动态添加到原始源句子中,可以生成更多种错误纠正的句子对实例,以增强语法错误纠正模型的泛化能力,而无需其他数据。NLP翻译 2020-12-08 11:33:32 · 705 阅读 · 3 评论 -
GECToR–Grammatical Error Correction: Tag, Not Rewrite翻译
摘要在本文中,我们提出了仅使用Transformer编码器的简单有效的GEC序列标注器。我们的系统在综合数据上进行了预训练,然后分两个阶段进行了微调:首先是错误的语料库,其次是有错误和无错误的平行语料库的组合。我们设计了自定义的字符级别转换,以将输入字符映射到纠正后的目标。我们最好的单模型以及联合模型GEC标注器分别在CoNLL-2014测试集上F0.5达到65.3和66.5,在BEA-2019上F0.5达到72.4和73.6。模型的推理速度是基于Transformer的seq2seq GEC系统的10倍翻译 2020-12-05 14:09:30 · 2006 阅读 · 0 评论 -
Improving Grammatical Error Correction via Pre-Training a Copy-Augmented Architecture翻译
摘要神经机器翻译系统已成为语法错误纠正(GEC)任务的最新方法。在本文中,我们通过将不用修改的单词从源句子复制到目标句子,为GEC任务提出了一种复制增强的体系结构。由于GEC缺乏足够的带标签训练数据来实现高精度。我们使用未标记的“十亿基准”数据以去噪自编码器的方法对复制增强的架构进行了预训练,并在完全预训练的模型与部分预训练的模型之间进行了比较。这是第一次在GEC任务上尝试从源上下文复制单词并完全预训练序列到序列模型。此外,我们为GEC任务添加了字符级和句子级多任务学习。CoNLL-2014测试集的评估结翻译 2020-12-05 14:08:27 · 670 阅读 · 0 评论