nlp 中文文本纠错_中文文本纠错算法走到多远了？

最新推荐文章于 2023-07-13 15:39:23 发布

weixin_39521068

最新推荐文章于 2023-07-13 15:39:23 发布

阅读量985

点赞数

文章标签： nlp 中文文本纠错

本文链接：https://blog.csdn.net/weixin_39521068/article/details/112157891

版权

纠错是从互联网起始时就在一直解决的问题，但是一直作为一些重要技术的辅助、附属功能而默默无闻，譬如搜索引擎、譬如火热的智能写作等。

中文文本纠错任务，常见错误类型包括：

目前来看，纠错算法分为两个方向：基于规则、深度模型

中文纠错分为两步走，第一步是错误检测，第二步是错误纠正；
错误检测部分先通过结巴中文分词器切词，由于句子中含有错别字，所以切词结果往往会有切分错误的情况，这样从字粒度和词粒度两方面检测错误，整合这两种粒度的疑似错误结果，形成疑似错误位置候选集；
错误纠正部分，是遍历所有的疑似错误位置，并使用音似、形似词典替换错误位置的词，然后通过语言模型计算句子困惑度，对所有候选集结果比较并排序，得到最优纠正词。

端到端的深度模型可以避免人工提取特征，减少人工工作量，RNN序列模型对文本任务拟合能力强，rnn_attention在英文文本纠错比赛中取得第一名成绩，证明应用效果不错；
CRF会计算全局最优输出节点的条件概率，对句子中特定错误类型的检测，会根据整句话判定该错误，阿里参赛2016中文语法纠错任务并取得第一名，证明应用效果不错；
seq2seq模型是使用encoder-decoder结构解决序列转换问题，目前在序列转换任务中(如机器翻译、对话生成、文本摘要、图像描述)使用最广泛、效果最好的模型之一。

那么笔者最近刚刚听了百度的纠错算法框架，就把听到的和之前收集到的一些材料整理如下。

百度智能纠错技术

可参考百度纠错开放平台：

https://ai.baidu.com/tech/nlp/text_corrector

百度智能纠错体系：

百度纠错的整体框架：

其中核心的关键步骤为：

关注