学分贵学分贵,学了就要会!!!
废话不多说,下面将对一些常见的基于文本的相似性算法做一下总结,一些很经典的算法这里会给出来实现。
算法
- Neighbourhood search
- N-gram distance
- Edit distance
接下来主要对这些算法的原理做一个介绍,然后给出相应的算法。接下来主要对这些算法的原理做一个介绍,然后给出相应的算法。接下来主要对这些算法的原理做一个介绍,然后给出相应的算法。接下来主要对这些算法的原理做一个介绍,然后给出相应的算法。
Neighbourhood Search
该算法目的是找出目标字符串的邻居, 如目标单词”god“, 那么“good”, “gold”都是其距离为1的邻居。该算法主要分为以下三步:
1.根据目标单词生成一个集合,该集合中的单词由目标单词最多进行k次变化生成;
2.在词典中遍历检验集合中的单词是否存在;
3.如果存在就返回。
该算法比较简单,虽然看起来需要生成多个单词并且并遍历但其实在实际应用中效率并不低下。
N-Gram
该算法把需要进行比较的对象截取为长度为N的子串集合,然后看两个集合有多少个不重合的子串。以 "cart"和"crat"的 2-gram distance为例:
cart = {#c, ca , ar, rt, t#}
crat = {#c, ca, ra, at, t#}
∣ G 1 ( c a r t ) ∣ + ∣ G 2 ( c r a t ) ∣ − 2 × ∣ ∣ G 1 ( c a r t ) ∣ ∩ ∣ G 2 ( c r a t ) ∣ = 5 + 5 − 2 × 3 = 4 |G_1(cart)| + |G_2(crat)| - 2\times||G_1(cart)| \cap |G_2(crat)|= 5 + 5 - 2\times3 = 4 ∣G1(cart)∣+∣G2(crat)∣−2×∣∣G