“query”附近的语法不正确。_研究综述中文语法错误的自动检测和纠正

最新推荐文章于 2024-07-16 16:00:13 发布

随便看看喽

最新推荐文章于 2024-07-16 16:00:13 发布

阅读量561

点赞数

文章标签： “query”附近的语法不正确。

本文链接：https://blog.csdn.net/weixin_30432831/article/details/113039624

版权

本文探讨了中文语法错误自动检测和纠正的重要性，包括背景介绍、具体的技术实现和相关参考文献。

摘要由CSDN通过智能技术生成

一、背景介绍

中文通常被认为是世界上现存最复杂的语言之一。中文的语法相比英文没有那么严格，更加灵活多变。而中文文本中词与词之间也没有明显的间隔。这些原因使得中文语法的错误检测和纠正任务比英文更加困难。关于中文语法错误自动检测的研究主要集中在NLP-TEA(Natural Language Processing To Education Application)评测当中，该评测从2014到2018每年举办一次。语法错误检测的研究主要是以序列标注方法为主，对中文句子进行标注，找到错误出现的位置。另外，关于中文语法自动纠正的研究则主要集中于2018年NLPCC的中文语法自动纠正评测当中。语法错误纠正的研究以机器翻译的方法为主，使用end to end的方式，输入原始句子，直接输出纠正之后的句子。 NLP-TEA和NLPCC两个评测分别为中文语法错误检测和错误纠正两个任务提供了数据集和评测标准。目前所有涉及中文语法错误自动检测和纠正的研究，均以这两个评测的数据集和评价指标为标准。

二、中文语法错误自动检测

1．NLP-TEA任务描述数据集：所有数据来自汉语水平考试(HSK)中的写作部分，即外国人写的中文作文。错误标注描述：评测定义了四种类型的错误，即：词语冗余(R)、词语缺失(M)、用词不当(S)、词序错误(W)，同时标注了每个错误的字符位置。评价指标：对检测任务进行三个级别的评判，包括： Detection-level，判断句子是否有错； Identification-level，判断句子中包含哪几种错误类型； Position-level，定位每个错误的位置。 2．最优算法目前中文语法错误自动检测算法效果最好的是NLP-TEA2018评测中优胜队伍哈工大-讯飞联合实验室所提出的算法，该算法的总体流程如下 ^[1]：

图1 . NLPTEA-2018年哈工大-讯飞联合实验室队伍的算法流程该算法借鉴了NLPTEA-2017第一名阿里团队的算法和思想，主体框架使用BiLSTM+CRF的序列标注模型，此外使用了大量基于语言学先验知识的特征[2]，包括： 1) 字嵌入向量(Cha