字符串搜索与匹配

学分贵学分贵,学了就要会!!!
废话不多说,下面将对一些常见的基于文本的相似性算法做一下总结,一些很经典的算法这里会给出来实现。

算法

  1. Neighbourhood search
  2. N-gram distance
  3. Edit distance

接下来主要对这些算法的原理做一个介绍,然后给出相应的算法。接下来主要对这些算法的原理做一个介绍,然后给出相应的算法。接下来主要对这些算法的原理做一个介绍,然后给出相应的算法。接下来主要对这些算法的原理做一个介绍,然后给出相应的算法。

Neighbourhood Search

该算法目的是找出目标字符串的邻居, 如目标单词”god“, 那么“good”, “gold”都是其距离为1的邻居。该算法主要分为以下三步:
1.根据目标单词生成一个集合,该集合中的单词由目标单词最多进行k次变化生成;
2.在词典中遍历检验集合中的单词是否存在;
3.如果存在就返回。

该算法比较简单,虽然看起来需要生成多个单词并且并遍历但其实在实际应用中效率并不低下。

N-Gram

该算法把需要进行比较的对象截取为长度为N的子串集合,然后看两个集合有多少个不重合的子串。以 "cart"和"crat"的 2-gram distance为例:

cart = {#c, ca , ar, rt, t#}
crat = {#c, ca, ra, at, t#}

∣ G 1 ( c a r t ) ∣ + ∣ G 2 ( c r a t ) ∣ − 2 × ∣ ∣ G 1 ( c a r t ) ∣ ∩ ∣ G 2 ( c r a t ) ∣ = 5 + 5 − 2 × 3 = 4 |G_1(cart)| + |G_2(crat)| - 2\times||G_1(cart)| \cap |G_2(crat)|= 5 + 5 - 2\times3 = 4 G1(cart)+G2(crat)2×G

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值