百分点认知智能实验室:智能校对的技术原理和实践

本文深入探讨了智能校对系统的意义、难点和解决方案,介绍百分点认知智能实验室在自然语言处理和机器学习基础上的校对算法技术。文章强调了智能校对在降低人工成本、提高效率和准确性方面的优势,以及面临的如错误样本未知分布、领域广度和性能要求高等挑战。同时,文中列举了校对系统需解决的各种错误类型,并概述了业界采用的规则方法和深度学习模型。最后,提出了生成对抗网络预训练模型在提高校对准确性和召回率方面的应用,以及实验中取得的积极效果。
摘要由CSDN通过智能技术生成

编者按 :大数据时代下各种文本信息爆炸,传统的文本分析处理工作逐渐被计算机取代。文本数据量越大,其中所包含的错误的总数也越多,通过校对工作来纠正文本中的错误显得尤其重要。传统的校对主要依赖人工,通过人来发现和纠正文本中的错误,人工校对效率低、强度大、周期长,显然已经不能满足目前文本快速增长的需求,智能校对系统在这个背景下应运而生。
伴随着机器学习和自然语言处理技术的发展,使用算法模型解决文本校对问题成为可能。智能校对系统的研发,极大地减轻了审校人员的工作负担,让从前繁重的工作模式变得简单、轻松和高效。本文将从校对中遇到的技术问题出发,带领各位读者了解业界校对的技术方法,以及百分点认知智能实验室在校对算法方面的技术原理和实践经验。

本文作者:易显维 苏海波

一、校对系统的意义及难点

  1. 校对系统意义
    文本校对系统的研发成功有着重要的现实意义:
    (1)文本自动校对能大大降低人工校对的成本,提高校对效率和质量。
    (2)文本校对使得信息检索变得准确高效,只有正确的文本输入才能有效提高信息检索能力。
    (3)具有广泛的应用领域和重要应用价值,可以用于文字编辑审稿、智能写作、智能搜索、智能问答系统等领域。
    (4)文本校对是很多自然语言处理任务的基础,例如文本来源于OCR或者语音系统识别之后的结果,就需要先通过校对算法将其转化为正确的输入文本,才能进行后续的自然语言处理分析。
  2. 校对系统的难点
    文本自动校对是自然语言处理的主要应用领域之一,也是自然语言处理领域的研究难题。难点主要体现在:
    (1)真实错误样本分布未知。该问题和其他自然语言处理问题或者模式识别问题有很大差异。其他自然语言处理任务都有客观存在的对应关系,即模型是靠识别固定的模式得到答案。但是在文本校对中,是从错误的句子或者词语出发找到正确的句子和词语,并不存在客观的对应关系,只能说不同的校对工作者会得出不同的答案,该答案的最终判定和校对工作者的文化水平和知识结构相关。由于是“错”找“对”,所以一个正确的字可能由于用户输入习惯不同产生不同的错误字,线上真实生产环境中的错误样本数据集中,错字到对字的分布规律随时都会发生变化,这让基于独立分布假设的机器学习在这个问题上遇到了挑战。
    (2)领域范围广。由于公司业务服务于各行各业,所以校对中遇到的输入文本含有各个领域的专有名词,需要大量的专业知识词典用于纠正来自不同行业的输入用户的输入错误。另外在不同的专业领域内,语料的字符分布差异很大,训练模型时较难找到输入训练语料的分布平衡性,即不同来源的语料应该分别输入多少到模型中进行训练。
    (3)性能要求高。具体体现在召回率、准确率、模型推理速度。召回率是校对系统性能的主要评测依据,用于描述在真实发生的错误中有多少错误能够通过算法找出来。准确率是良好客户体验的重要保证,试想一个准确率低通篇都是误报的系统必将极大地影响用户使用时的感受和降低用户使用的效率。模型推理速度快是系统服务客户的重要要求,如果校对模型的速度慢,对于在线使用校对服务的用户,体验就会特别差。
  3. 校对系统解决的问题
    上文描述了文本校对算法的难点,接下来我们将校对算法要解决的问题可以简单地分为以下几个方面:
    (1)错别字:这个月冲值有优惠吗?我这个月重置了话费?请帮我查木月的流量;
    (2)字词插入错误:《手机早晚日报》具体如何订阅和收费;
    (3)字词删除错误:为什么我的卡又无缘无故的扣掉几块钱;
    (4)词性搭配错误:他很兴致的回答了问题->他很有兴致的回答了问题(副词不能接名词);
    (5)关联词搭配错误:只有提高经济实力,我们就能富国强民(“只有”只能搭配“才”, 不能搭配“就”);
    (6)句型错误:通过这次学雷锋活动,使我们受到了很大的教育(缺主语);
    (7)语义搭配错误&#x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值