“query”附近的语法不正确。_研究综述中文语法错误的自动检测和纠正

本文探讨了中文语法错误自动检测和纠正的重要性,包括背景介绍、具体的技术实现和相关参考文献。
摘要由CSDN通过智能技术生成

一、背景介绍

中文通常被认为是世界上现存最复杂的语言之一。 中文的语法相比英文没有那么严格,更加灵活多变。 而中文文本中词与词之间也没有明显的间隔。 这些原因使得中文语法的错误检测和纠正任务比英文更加困难。 关于中文语法错误自动检测的研究主要集中在NLP-TEA(Natural Language Processing To Education Application)评测当中,该评测从2014到2018每年举办一次。 语法错误检测的研究主要是以序列标注方法为主,对中文句子进行标注,找到错误出现的位置。 另外,关于中文语法自动纠正的研究则主要集中于2018年NLPCC的中文语法自动纠正评测当中。 语法错误纠正的研究以机器翻译的方法为主,使用end to end的方式,输入原始句子,直接输出纠正之后的句子。 NLP-TEA和NLPCC两个评测分别为中文语法错误检测和错误纠正两个任务提供了数据集和评测标准。 目前所有涉及中文语法错误自动检测和纠正的研究,均以这两个评测的数据集和评价指标为标准。

二、中文语法错误自动检测

1.NLP-TEA任务描述 数据集: 所有数据来自汉语水平考试(HSK)中的写作部分,即外国人写的中文作文。 错误标注描述: 评测定义了四种类型的错误,即: 词语冗余(R)、词语缺失(M)、用词不当(S)、词序错误(W),同时标注了每个错误的字符位置。 评价指标: 对检测任务进行三个级别的评判,包括: Detection-level,判断句子是否有错; Identification-level,判断句子中包含哪几种错误类型; Position-level,定位每个错误的位置。 2.最优算法 目前中文语法错误自动检测算法效果最好的是NLP-TEA2018评测中优胜队伍哈工大-讯飞联合实验室所提出的算法,该算法的总体流程如下 [1]c2c5fc72058b253af17f11045dbcc360.png 图1 . NLPTEA-2018年哈工大-讯飞联合实验室队伍的算法流程 该算法借鉴了NLPTEA-2017第一名阿里团队的算法和思想,主体框架使用BiLSTM+CRF的序列标注模型,此外使用了大量基于语言学先验知识的特征[2],包括: 1) 字嵌入向量(Cha
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值