序
最近在看自然语言处理方面的书籍,也写写相关的读书笔记吧
英语单词拼写是文字录入,编辑,出版等工作中的一项重要任务。实现单词拼写检测的方法很多,我这里就暂时写2个,第一个是在《统计自然语言处理》书中的 K.Oflazer用有限自动机写的,第二个是在网上看见的一个20几行python代码写的《How to Write a Spelling Corrector》
自动机法
基于优先自动机的识别器,可以看成由所有正确的单词构成的一个有向图:
每个正确的单词都是一条由起始位置(q0)到一个蓝色节点的一条路径,路径上的所有弧组合起来就是该单词。
现在,我们需要作的是:对于一个输入的单词,找出编辑距离(网上这方面的文章很多)小于t的所有路径。如果使用穷举法,是可以做到的。但是为了提高搜索速度,我们必须要尽早的把那些编辑距离超过给定阀值的路劲剪枝。
剪除距离
设Y是一个候选的字符串(拼写正确),长度为n
设X是出错的字符串,长度为m
我们确定2个边界,一个是n-t,一个是n+t
为什么确定这2个边界呢?对于长度小于n-t的X子串,至少需要大于t次插入操作,对于长度大于n+t的X的子串,需要大于t次的删除操作,以上2种情况都不符合要求。
考虑2个字符串的长度,把边界定义为 l=max(1,n−t),u=min(m,n+t)
所以,我们得出剪除距离为: cuted(X,Y)=min(ed(X[i],Y)),l≤i