《Clojure数据分析秘笈》——2.10节修正拼写错误

本节书摘来自华章社区《Clojure数据分析秘笈》一书中的第2章,第2.10节修正拼写错误,作者(美)Eric Rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看

2.10 修正拼写错误
拼写错误是某些时间需要处理的问题。特别是当你试图处理原始的文本数据时,拼写错误会对你的工作造成较大影响。
曾几何时,拼写检查器是进行多种优化的软件的重要部分,这些软件被限制运行于日常工作计算机环境下。现在情况不是这样了。Peter Novig在互联网上发布了一篇名为“如何编写拼写检查器程序”(http://norvig.com/spell-correct.html)的文章。它展示了如何读入被假定为拼写无误的文本并根据这些文本构建拼写检查器。他提供了一个使用Python的21行代码的实现。本方法中,将Python代码转换为Clojure代码。


a0c46d380bba68d7f25b890c16d4029aeaa01980


2ad95b919c9e4295aef60bfa67c88a006054dffb


0b3032f3efe23bcfa7f54ad0e7fbc689eb97cb31

上述结果解释了原因。transpose没有在训练集中出现过,elder的出现次数比editor两倍还多,因此上述结果是基于训练集的拼写修正。

2.10.3 实现原理
核心函数是edits-1和known-edits-2。它们在字符串空间上执行查询,寻找与被检查的单词的编辑距离是1或2的那些已知单词(在测试集中出现过的单词)。在执行操作之前,单词由split-word函数一分为二。可以组成一次编辑操作(edit)的处理过程由以下一系列函数定义:
delete-char:从一个单词中删除一个字母(例如,word转换为wod)。
transpose-char:交换两个字母的顺序(例如,word转换为wrod)。
replace-split:使用字母表中的另一个字母替换一个字母(例如,word转换为wobd)。
insert-split:向单词中插入一个字母(例如,word转换为wobrd)。
correct函数查看所有在训练集中出现过的返回的编辑操作,并从中选出频率最高的那个。

2.10.4 更多信息
如果你想了解这项工作的统计信息(你应该这么做,它非常有趣),请查看Norvig文章的解释(http://norvig.com/spell-correct.html)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值