《GECToR -- Grammatical Error Correction: Tag, Not Rewrite》论文笔记

最新推荐文章于 2024-09-20 23:31:36 发布

可姆可汗

最新推荐文章于 2024-09-20 23:31:36 发布

阅读量1.8k

点赞数 1

分类专栏： NLP论文笔记文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42890800/article/details/112753285

版权

NLP论文笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

解决的问题
这篇论文的思想
实验
结论

解决的问题

NMT-based GEC系统有如下几个问题妨碍了部署：

缓慢的推理速度
需要大量的训练数据
可解释性

在这篇论文中，通过将任务从序列生成转换成序列标注，简化了任务，处理了上述的问题。

这篇论文的思想

Token-level transformations

首先介绍一下概念，Token-level transformations包括以下两种：

Basic transformations: 保持不变、删除、在目前的token后面添加一个token、将目前的token替换为另一个token
g-transformations: 主要是一些具体的任务，比如：改变大小写、将当前的token与下一个token合并、把目前的token分解为两个、单数转复数等等

然后，这篇论文开始了他的预处理工作，把训练和评估数据从简单的原始文本与纠正文本对，转换成了每个token编辑方式的tag。

Tagging model architecture

此模型是由预训练的BERT-like的transformer组成的encoder。然后后面堆了两个线性层和一个softmax层。

Iterative sequence tagging approach

使用GEC sequence tagger标注修改过的序列，然后再次纠正，以这样的方式进行迭代，保证尽可能地完全纠正句子。由于模型问题，一次迭代只能执行一次编辑，但是很多错误并不能由一次编辑来纠正，所以多次迭代具有相应的科学性。

实验显示，大部分的纠正都在前两次迭代中完成。

实验

训练

有三个训练步骤：

在合成的错误句子上的预训练
在错误句子上进行微调
在错误句子和正确句子上进行微调

Encoders from pretrained transformers

这篇论文尝试了LSTM、ALBERT、BERT、GPT-2、RoBERTa、XLNet等作为encoder，最后发现BERT, RoBERTa和XLNet效果要好于其他，在进一步的实验中作者使用了这些。

Tweaking the inference

随后这篇论文在推断的时候又做了一些小改良：

设置一个不改变原来token的概率阈值，名为confidence bias
在错误检测层，设置一个句子级别的minimum error probability阈值

在这些小的改良下，模型的能力确实提升不少：
在这里插入图片描述

Speed comparisons

由于此模型不需要一个一个的从decoder中预测纠正的单词，所以推断是并行执行的，速度就快了很多。

结论

这篇论文使用了序列标注方法、预训练transformer、独特的token转换方式和3-stage的训练，实现了一个更快更强的GEC系统，达成了GEC方面的最好性能，并且推导速度是基于Transformer的seq2seq模型的10倍。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

可姆可汗 CSDN认证博客专家 CSDN认证企业博客

码龄6年

70: 原创

5万+: 周排名

2万+: 总排名

8万+: 访问

: 等级

1030: 积分

56: 粉丝

95: 获赞

20: 评论

254: 收藏

私信

关注

热门文章

分类专栏

RDMA 6篇
强化学习 3篇
分布式机器学习论文笔记 12篇
NLP论文笔记 5篇
计算机系统 1篇
NLP 3篇
机器学习 2篇
工具 3篇
好文 3篇
计组 1篇
计网 2篇
Python 13篇
网页前端 4篇
Linux 4篇
算法导论 3篇
C/C++ 11篇

最新评论

计算机网络好文链接
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
Python中主要数据结构的使用
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Near-Optimal Topology-adaptive Parameter Synchronization in Distributed DNN Training（论文笔记）
qq_44477955: 性质2中子块的通信时间真的搞不懂，为什么第一个子块传输到根节点的最大时间是N-1个单位，而剩余的s-1个子块传到根节点的时间却是s-1个单位时间，不应该是（s-1）*（N-1）么，总时间竟然是s+N-2个单位时间，而不是s*（N-1）
Near-Optimal Topology-adaptive Parameter Synchronization in Distributed DNN Training（论文笔记）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
本地使用 jupyter notebook 连接远程服务器
绿毛水怪tbO3: 端口映射时需要访问密码，请问这个密码是用户的密码还是token呢？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。