语法纠错数据生成方法

最新推荐文章于 2024-07-15 22:50:44 发布

qq_28935065

最新推荐文章于 2024-07-15 22:50:44 发布

阅读量2k

点赞数

分类专栏：自然语言处理文章标签：机器翻译自然语言处理人工智能

本文链接：https://blog.csdn.net/qq_28935065/article/details/123477040

版权

自然语言处理专栏收录该内容

11 篇文章 0 订阅

订阅专栏

语法纠错属于句子级的校对，需要检测并纠正句子中的错误，其中语法纠错目前已经公开的数据量不多，而现在解决语法纠错的问题主要是采用深度学习的模型，这些深度学习的模型需要大量的训练数据，因此本文总结了几种语法纠错数据生成的方法

1.在word-level或者char-level随机插入、替换、删除、重排

按照10%的概率随机删除一个词；按照10%的比例随机增加一个词；按照10%的比例随机替换一个词；对所有的词语序号增加一个正态分布，然后对增加正态分布后的词语序号进行重新排序后得到的句子作为错误语句。

2.使用拼写检查或者从训练集中提取word的编辑进行随机

3. 直接使用back-Translation：输入正确的句子，输出具有语法错误的句子

4.在back-Translation解码过程中加入噪声，提高GEC的back-Translation

5. 在back-Translation解码过程中使用抽样代替beam search

在back- translation进行解码的时候，直接使用随机抽样，而不是beam search

6. 在句子中直接插入噪声

在原来的句子中，以概率选择这四种操作：mask，keep，deletion，insert，其中选择概率是基于类别的分布得到的。

7. 提高流利度的学习（Fluency-boost learning），用于在训练过程中生成额外的句子对

8. 将正确的句子翻译成另外一种语言，然后再回译，形成正确句子对应的语法错误的句子。

Google研究院的Jared Lichtarge等人提出利用机器翻译系统来生成伪数据。具体方法是使用翻译系统将英语翻译成为一种中间语言（日语、法语等），然后再将中间语言翻译回英语。生成的英语语义和原始英语语句基本保持不变，但是往往会产生一些语法错误。

除了上述构造伪数据的方法外，Jared Lichtarge等人还提出采用维基百科的编辑记录来自动生成真实的语法纠错数据。维基百科会记录每一个版本的变化，里面包含大量的人工修正信息，因此可以采用两个相邻版本之间的变化来自动生成语法纠错数据。下图是实际生成的一些示例，我们可以从图中看到，维基百科数据生成的数据噪音比较大，会产生一些信息变动。

9. 使用显式错误类型标签受到干扰的潜在表示来生成合成句子

给定一个目标语法错误类型和相应的语法错误类型分类器，我们可以得到一个潜在空间中的扰动向量。然后将扰动向量添加到输入句子的潜在表示中，利用解码器生成具有目标语法错误类型的句子。通过这种方式，可以通过指定不同的目标错误类型来生成不同的错误。为了进一步提高性能，我们采用了一些规则来辅助一些局部语法错误的生成，如拼写错误、标点错误等。

10 . 将错误标签加入到输入序列中，即给定一个错误标签和一个没有语法错误的句子，去生成该错误类型下对应的语法错误的句子。

11. 将词性标注用于数据生成，一共是五类错误类型