中文语法纠错全国大赛获奖分享：基于多轮机制的中文语法纠错

最新推荐文章于 2023-12-26 01:43:30 发布

DatagrandRS

最新推荐文章于 2023-12-26 01:43:30 发布

阅读量411

点赞数

分类专栏：达观智能推荐文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/DatagrandRS/article/details/128468208

版权

本文分享了达观数据在CCL2022汉语学习者文本纠错比赛中的夺冠经验，探讨了中文语法纠错的挑战与解决方案。通过数据分析、拼写纠错模型、语法纠错模型的构建，以及数据增强策略，提升了模型的纠错能力和准确性。在实际应用中，这些技术已应用于达观智能校对系统，助力不同领域的文本校对。

摘要由CSDN通过智能技术生成

中文语法纠错任务旨在对文本中存在的拼写、语法等错误进行自动检测和纠正，是自然语言处理领域一项重要的任务。同时该任务在公文、新闻和教育等领域都有着落地的应用价值。但由于中文具有的文法和句法规则比较复杂，基于深度学习的中文文本纠错在实际落地的场景中仍然具有推理速度慢、纠错准确率低和假阳性高等缺点，因此中文文本纠错任务还具有非常大的研究空间。

达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查（Chinese Spelling Check）任务中取得了冠军,赛道二中文语法纠错（Chinese Grammatical Error Diagnosis）任务中获得了亚军。本文基于赛道二中文语法纠错任务的内容，对比赛过程中采用的一些方法进行分享，并介绍比赛采用的技术方案在达观智能校对系统中的应用和落地。赛道一中文拼写检查的冠军方案会在后续的文章分享。

本次中文语法纠错任务是对给定的句子输出可能包含的错误位置、错误类型和修正答案，而最终的评测指标是假阳性、侦测层、识别层、定位层和修正层这五个维度指标的综合结果。而且本次评测任务使用的数据是汉语学习者的写作内容，与母语写作者相比汉语学习者的数据本身就具有句子流畅度欠佳、错误复杂度较高等情况。因此，本次评测的难度在于对于汉语学习者的书写内容既要保证检错和纠错的准确率和召回率，还要保证正确句子不能进行修改操作以降低模型的假阳性。本文主要从数据和模型两方面来分享本次比赛中采用的模型和策略。

数据分析

本次评测中，官方提供了CGED的历年比赛数据(41,239条)和Lang8数据(1212,457条)供模型训练，同时提供了3767条评测数据用以验证模型的效果和性能。为了解数据的错误分布以及数据的质量，我们首先对评测数据进行了分析。CGED-21验证集中的错误分布情况如图1所示，由此可以看出数据集中占绝大多数的均为用词错误，其次为缺失错误，而乱序错误的占比最少。

图1 验证集错误占比统计图

同时在数据测验的过程中还发现了CGED和Lang8数据集中存在的一些数据问题。

具体问题如下所示：

源句子与目标句子完全不相关；
目标句子是对源句子的批注；
源句子中存在错误编辑距离较大的情况；
数据集中末尾处存在多字的缺失错误

最低0.47元/天解锁文章

DatagrandRS

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
中文语法纠错全国大赛获奖分享：基于多轮机制的中文语法纠错

由该赛道的评测指标可知，本次比赛不仅考察模型的纠错能力，还考察模型正确区分句子对错的能力；在实验分析的过程中，我们发现模型对多字词的缺失和句子不同位置的错误的纠错能力不同，并且当前的数据集未能覆盖绝大多数的错误，因此存在OOV的问题。在推理阶段，为了在输出的标签空间中搜索出一条最优的解码路径，我们利用局部路径解码方法对局部的移动编辑操作确定一条和为0的相对路径，并通过自适应阈值的方法对不同编辑操作、不同的词性和词频确定不同的修改接受阈值，由此提高模型的纠正准确率并解决模型的过度纠正等问题。
复制链接

扫一扫