互联网软件错别字识别系统之初想一

背景:

搜狗公布了2017年第一部互联网错别字报告,但是对于一个QA,我们要如何提高自己的错别字能力
1,提升自己的语文水平能力,如果当年语文试题第一题经常不能得分的,可能是个坑
2,提什自己对错别字的敏感度,其实也是一种责任心,错别字可能没多大危害,但是可能是越低级的错误越显得严重。

初步设想:

我们要用程序的角度去解决这个问题,如何用自动化去识别别名。
其实几个重点的任务:

数据源:

1,需要识别我们代码中的中文,代码中的有些是注释可能有错别字,但是非注释的错别字可能用户是能看见需要对扫码的代码的几何注释需区分
2,有种是设计师设计的时候就已经在图片上写了错别字。

对比过程:

1,单纯的错别字匹配,需要自己有个强大的错别字库,一般搜索出来的都是语句,这有两种方式,错词库是否命 语句中的词语,但是中文的组合博大精深,很容易匹配的不是一个词语。逆向匹配,语句先分词,在去命中错词库,所以前提是需要强大的分词,才会保证正确率,同时对于公司的个性词语,需要有自定义分词的能力。
提示语1:XXX错误,请稍后再试!
提示语2:XXXX,请稍候
对于请稍后和请稍候,在中华大辞典解释前置偏重时间,后者偏重行为,如果匹配出请稍后,那么这次是错误还是正确了?
我们的强大的分词库,需要不断的学习。
这块也有一些牛逼的算法,根据前后词语出现的频率,不断的去和后面的词组合,在某个低零界点以下的频率组合,我们可能初步判断这个词是错别字。这种可以检验漏词。
2,拼音校验,现在的新生代的互联网人,很少用五笔,错别字的诞生很多是由于拼音输入和大脑潜意识,觉得这个词对的,这种很难考错别字库去命中,所以这种可以通汉字转换成拼音,这个词语的拼音的匹配度,汉字的匹配度来猜测是否是错别字,一般容易出现的缺少克,这只ZH,Z类型,或者L,N这些输入错误,这种错误会造成一个这两词语的拼音相似度在80%以上,同时一个汉字的写对了,另外一个写错了,所以中文的匹配度至少大于50%,我们初步可以判断这个词语是错别字。这个模型可不断的优化。

词库:

根据上述,我们需要很多词库
1,一个强大的分词库
2,用户自定义的个性分词库
3,中文的正确与错别的词库
4,拼音对应的词语正确的词库

结果输出:

其实程序输出,还是需要认为二次确认下,可暂时输入的除外,前期是想直接掉提单系统的API直 提单,后面想想还是前期二次确认下,保证命中错别的准确性。

初步的设想:

这里写图片描述


后续关注blog,可加入QQ测试进阶3群:363550351


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值