字符串匹配

中文信息检索系统的模糊匹配算法研究和实现
1,改进了Tarhio和Ukkonen提出的过滤算法(TU过滤算法)
2,针对汉字输入法出现的同音字/近音字混用,将算法进一步扩展到广义的编辑距离上。在实际应用中可达到“子线性”的效率
3,模糊匹配;过滤算法;动态规划
4,
精确匹配:
在--字符串str--中寻找--模式串pat--的匹配位置:
Knuth-Morris-Pratt(KMP),Boyer-Moore(BM),BM算法以及其改进型(BMH)能达到极高的效率(子线性)
模糊匹配:
Edit Distance(ED)。把A转换成B需要的最少修改次数
模糊匹配技术的策略主要有以下4种:
1,动态规划2,自动机3,位平行策略4,过滤策略


---------------------------------------

这是动态规划+剪枝
带剪枝的动态规划算法
目标字符串为str,长度为n,模式字符串pat,长度为m。两个匹配串之间的最大ED为k,错误率上界为a,a=k/m。用s[0,...,i]表示字符串s的一个字串。str的每个字串可以表示为其前缀字串的后缀字串,动态规划计算了pat的前缀字串pat[0,...,i-1]和str的前缀字串str[0,....,j-1]的后缀字串的最小ED,计入D(i,j)

D(i,j)只和D(i-1,j),D(i,j-1),D(i-1,j-1)有关,分别对应于pat[i-1]的删除,插入,替换和匹配操作,计算(m+1)*(n+1)的动态规划矩阵D,复杂度为O(MN)

在狭义ED定义下,D沿对角线从左上到右下,元素值非严格单调递增。记下列j中不大于k的最后一个元素的位置last,对j+1列,只需计算D(0,j+1),D(1,j+1),...,D(last+1,j+1),这种方法被称为剪枝,把时间复杂度减小到O(kn)
-------------------------------------------------
TU算法出发点是用近似方法找到并过滤掉D中必然大于k的D(i,j),实际上借鉴了BMH算法中从右向左扫描str串,寻找失败位置

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值