互联网软件错别字识别系统之初想一_查询错别字程序开发思路-CSDN博客

本文链接：https://blog.csdn.net/Jason_tester/article/details/79419303

- 背景

背景：

搜狗公布了2017年第一部互联网错别字报告，但是对于一个QA，我们要如何提高自己的错别字能力
1，提升自己的语文水平能力，如果当年语文试题第一题经常不能得分的，可能是个坑
2，提什自己对错别字的敏感度，其实也是一种责任心，错别字可能没多大危害，但是可能是越低级的错误越显得严重。

初步设想：

我们要用程序的角度去解决这个问题，如何用自动化去识别别名。
其实几个重点的任务：

数据源：

1，需要识别我们代码中的中文，代码中的有些是注释可能有错别字，但是非注释的错别字可能用户是能看见需要对扫码的代码的几何注释需区分
2，有种是设计师设计的时候就已经在图片上写了错别字。

对比过程：

1，单纯的错别字匹配，需要自己有个强大的错别字库，一般搜索出来的都是语句，这有两种方式，错词库是否命语句中的词语，但是中文的组合博大精深，很容易匹配的不是一个词语。逆向匹配，语句先分词，在去命中错词库，所以前提是需要强大的分词，才会保证正确率，同时对于公司的个性词语，需要有自定义分词的能力。
提示语1：XXX错误，请稍后再试！
提示语2：XXXX，请稍候
对于请稍后和请稍候，在中华大辞典解释前置偏重时间，后者偏重行为，如果匹配出请稍后，那么这次是错误还是正确了？
我们的强大的分词库，需要不断的学习。
这块也有一些牛逼的算法，根据前后词语出现的频率，不断的去和后面的词组合，在某个低零界点以下的频率组合，我们可能初步判断这个词是错别字。这种可以检验漏词。
2，拼音校验，现在的新生代的互联网人，很少用五笔，错别字的诞生很多是由于拼音输入和大脑潜意识，觉得这个词对的，这种很难考错别字库去命中，所以这种可以通汉字转换成拼音，这个词语的拼音的匹配度，汉字的匹配度来猜测是否是错别字，一般容易出现的缺少克，这只ZH，Z类型，或者L，N这些输入错误，这种错误会造成一个这两词语的拼音相似度在80％以上，同时一个汉字的写对了，另外一个写错了，所以中文的匹配度至少大于50％，我们初步可以判断这个词语是错别字。这个模型可不断的优化。