字符串搜索与匹配

Yinghao_Karno

于 2019-01-11 15:09:22 发布

阅读量1.4k

点赞数

分类专栏：数据挖掘文章标签：字符串匹配

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_15983549/article/details/86301989

版权

学分贵学分贵，学了就要会！！！
废话不多说，下面将对一些常见的基于文本的相似性算法做一下总结，一些很经典的算法这里会给出来实现。

算法

Neighbourhood search
N-gram distance
Edit distance

接下来主要对这些算法的原理做一个介绍，然后给出相应的算法。接下来主要对这些算法的原理做一个介绍，然后给出相应的算法。接下来主要对这些算法的原理做一个介绍，然后给出相应的算法。接下来主要对这些算法的原理做一个介绍，然后给出相应的算法。

Neighbourhood Search

该算法目的是找出目标字符串的邻居, 如目标单词”god“, 那么“good”， “gold”都是其距离为1的邻居。该算法主要分为以下三步：
1.根据目标单词生成一个集合，该集合中的单词由目标单词最多进行k次变化生成；
2.在词典中遍历检验集合中的单词是否存在；
3.如果存在就返回。

该算法比较简单，虽然看起来需要生成多个单词并且并遍历但其实在实际应用中效率并不低下。

N-Gram

该算法把需要进行比较的对象截取为长度为N的子串集合，然后看两个集合有多少个不重合的子串。以 "cart"和"crat"的 2-gram distance为例：

cart = {#c, ca , ar, rt, t#}
crat = {#c, ca, ra, at, t#}

$|G_1(cart)| + |G_2(crat)| - 2\times||G_1(cart)| \cap |G_2(crat)|= 5 + 5 - 2\times3 = 4$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符串搜索与匹配

学分贵学分贵，学了就要会！！！废话不多说，下面将对一些常见的基于文本的相似性算法做一下总结，一些很经典的算法这里会给出来实现。算法Neighbourhood searchN-gram distanceEdit distance接下来主要对这些算法的原理做一个介绍，然后给出相应的算法。接下来主要对这些算法的原理做一个介绍，然后给出相应的算法。接下来主要对这些算法的原理做一个介绍，然后...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。