nlp 优缺点 混淆度_NLP.TM[37] | 深入讨论纠错系统

本文深入探讨NLP纠错系统,包括错误检测、候选召回和候选排序三个步骤。错误检测利用词典和语言模型定位错误,候选召回通过混淆集和NLG寻找正确结果,候选排序则通过语言模型的困惑度等指标评估并选择最优解。此外,文章还强调了语言模型、混淆集建设和规则制定在系统中的重要性。
摘要由CSDN通过智能技术生成

导读:大家好,我是机智的叉烧,这是我NLP.TM系列下的第37篇文章(部分文章还未更新到知乎中,微信公众号下有)。之前一连有好几篇文章谈到了这个纠错,先是浅谈,然后以pycorrector为例给大家讲了一遍就纠错的整个框架,这次给大家深入探讨一下现在纠错框架的常规思路以及一些具体的方法。也作为这一小版块的结束,后续会开新的内容,敬请期待哈哈~。

更多文章欢迎关注:

我的专栏:数学·数据·计算机

我的公众号:CS的陋室

先来汇总我之前写过的几篇文章:

纠错框架的基本结构

虽然纠错只是一个看着简单的任务,但是实际上已经构建成了一个非常完整的系统,根据这个系统兼顾很多事情,举几个点:充分缩小范围,防止过纠,毕竟纠错是NLP系统的上游,过纠的代价非常大。

充分挖掘可能错误的位置,在词汇支持的情况,找到可能正确的结果,保证召回率。

各种抽取特征,能通过更加严谨的方式在多个候选中找到最优的结果。

然后我们来看看一个比较OK的纠错系统结构是什么样的,三大步骤:错误检测:检测句子错误的部分,后续只对这个部分进行错误纠正。

候选召回:根据识别的错误进行针对性的修改,这块依赖候选集。

候选排序:错误可能有很多。召回的结果也有很多,那个才是最优解,这步需要通过一定的方式得到最优结果。

错误检测

错误检测是文本进入纠错体系的一个大门,设立他的目的有这几个:缩小纠正范围,降低后续流程的压力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值