JCJC错别字检测系统测试说明

如果你的工作跟文本校对纠错相关,每天要检查文档中的错别字,那么本文正好涉及这个主题,本文会向你介绍一点JCJC在这方面的工作。

JCJC中文错别字检测系统的定位

JCJC中文错别字检测系统目前还不能做到 100% 替代人工审核,目前的定于属于:辅助检测

目前JCJC错别字检测系统从核心原理上是:采用概率计算的方式进行错别字识别,根据概率计算的结果分为五级:

  1.  第一级、第二级、第三级:为错误级别,错误严重程度依次递减;
  2.  第四级、第五级:为句子通顺检查级别;

当您使用软件对文章进行错别字检测的时候,一般会有以下三种情况:

  1. 正确识别错别字;
  2. 误报:把原本正确的文字标识为错别字;
  3. 漏报:把原本错误的文字没有识别并标识;

误报与漏报

引起误报和漏报的原因较复杂,这是中文错别字软件面临的一个难题,一些典型的原因如下:

  • 行业词汇:主要是指专业名词,国外名词翻译标准未统一;
  • 缩略语:各行业为了简化表示一类词语而约定俗称的一些缩略表达;
  • 中文的特点导致的识别困难;
  • 不同语境中的灵活表达,由于算法策略疏漏导致的识别困难;

目前JCJC错别字检测系统中包含约:3500万词汇,并且针对提供了自定义接口,自定义接口包含两类情况:

  • 白名单:当出现误报的时候,把误报的词语作为白名单输入;
  • 黑名单:当出现漏报的时候,把漏报的词语作为黑名单输入;

JCJC错别字检测系统一直在不断升级,提升误报、漏报的识别水平。

如何提高错别字检测系统的检测效果

JCJC错别字检测系统目前定位于:辅助检测,无法完全替代人工。为了给用户更好的检测体验,可以从以下几个方面着手改进:

  1.  产品层面
    1.  JCJC错别字检测系统提供的接口API中返回了与错别字相关的:位置、错误级别、建议词 等信息, 可以利用这些字段在用户界面UI 中进行提示,告知用户识别的状态;
    2.  第四级、第五级是通顺检测级别,此类信息应当明确告知用户,或者在 前端界面UI 显示时予以忽略;( 由用户决定是否显示 )
  2.  技术层面
    1. JCJC错别字检测系统,是一套适用于各行业的、独立于业务的错别字检测系统。在实际应用中,各个行业由自己的检测需求和文字特点,可以有技术人员根据JCJC错别字检测接口API进行定制化,以适应业务需求。
  3. 运营层面
    1.  针对客户的业务需求,发现客户业务特点,比如:新增的词语

综上:为了给最终用户提供更好的文本纠错体验,需要产品技术运营以及JCJC错别字检测系统各方的努力才能达成。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JCJC错别字检测-田春峰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值