nlp 中文文本纠错_文本纠错技术探索和实践

全文框架概览

ddf96a88bdfc361dd09d29457fdbdb86.png

一、背景与意义

中文纠错技术是实现中文语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本。纠错模块作为自然语言处理最基础的模块,其重要程度不言而喻。

在日常生活中,我们经常会在微信、微博等社交工具或公众号文章中发现许多错别字。我们在几个方面对文本出错概率进行了统计:在微博等新媒体领域中,文本出错概率在2%左右;在语音识别领域中,出错率最高可达8-10%;而在平安人寿问答领域中,用户提问出错率在去重后仍高达9%。

在平安人寿问答领域的用户问题中,我们发现多种类型错误。其中占比最高的错误是语言转化和发音不标准的错误,占错误总量的50%。比如一款保险产品“少儿平安福”被语言识别转化为“少儿平安符”、“飞机”因方言差异被读成“灰机”、“难受想哭”变成“难受香菇”等。

占比第二高的错误类型是拼写错误,占错误总量的35%。这些错误主要发生在通过拼音、五笔和手写输入文本的场景。比如“眼镜蛇”-“眼睛蛇”、“缺铁性贫血”-“缺铁性盆血”等。剩余的错误我们将其分类为语法和知识错误,语法错误包括多字少字乱序,如“地中海投保”-“投保地中海”,知识关联错误如“福田平安金融中心”错写为“南山平安金融中心”。

文本中大量的错误对上层nlp技术来说无疑是一项巨大挑战,输入数据的准确性是自然语言处理常见任务的基本前提,也是提高上层应用性能的关键。

996c76c25f52469980ef572ecd1b9f25.png

二、研究现状

在通用领域中,中文文本纠错问题是从互联网起始时就一直在解决的问题。在搜索引擎中,一个好的纠错系统能够对用户输入的查询词进行纠错提示,或直接展示正确答案。

在此给大家介绍一个比较受欢迎的纠错项目:Pycorrector。该项目由规则纠错和深度学习纠错两部分组成。深度学习纠错项目中提到一些前沿的方法,比如机器翻译,但作者未提供直接调用接口;而规则纠错虽然可以直接调用,但因其性能和准确率无法满足我们项目需求,无法直接使用。下面简单介绍一下规则纠错,主要分为经典三步曲:第一步通过常用词词典匹配结合统计语言模型的方式进行错误检测;第二步利用近音字,近形字和混淆字进行候选召回;最后一步利用统计语言模型进行打分排序。

27b8746208263d7392827f481f1e47d6.png
  • 7
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值