《Clojure数据分析秘笈》——2.3节使用同义词映射保持一致性

本节书摘来自华章社区《Clojure数据分析秘笈》一书中的第2章,第2.3节使用同义词映射保持一致性,作者(美)Eric Rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看

2.3 使用同义词映射保持一致性
不一致性是数据中的一个常见问题。有时一个字符是大写的,有时不是,有时是缩写,有时不是,有时还有拼写错误。
在一个开放的域中,如随意拼写的单词,问题就较为复杂。然而,当数据代表一个有限的词库(如美国的州名)时,使用一些小技巧就可以解决。一个从普通形式或者错误形式到标准形式的映射是修正域内变量的一种简单办法。

2.3.1 准备工作
使用如下表达式确保clojure.string/upper-case函数可用:


c97d43721781aebfe5bbd3bb2b2d24e37201c455

2.3.3 实现原理
本方法中唯一的波折是需要对输入稍微进行一下标准化,即确保在其使用同义词映射前是大写形式。否则,需要为输入可能变化的每种形式设定入口。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值