[代码实例]字符串近似匹配算法 C++

[代码实例]字符串近似匹配算法

英雄

C、C++ (2003-10-29 13:00:21)


 

字符串的近似匹配,就是允许在匹配时有一定的误差,比如在字串“以前高手好久不见”中找“以前是高手”也能成功。具体地说,错误可以有三种类型:加字符(以前也是高手)、漏字符(以前高手)和替换字符(以前石膏手)。下面的函数在text中查找子串pat,最多允许有k个错误。返回的是匹配的终点(我还没想好如何确定起点,呵呵)。
至于算法的原理,现在一下子说不清楚,只能说这是一个非确定性有限自动机,以后有时间的话再详细介绍。有兴趣的话可以自己去看文章《Faster Approximate String Matching》, Algorithmica (1999) 23: 127-158。

算法的限制:(m-k)*(k+2) <= 64, 这里m是子串的长度。那个64是因为哦用了64位整数来编码自动机的状态。如果允许两个错误,则子串最长为18个字符,对一般应用来说足够了。

好了,废话少说,看算法吧。看不懂?没事了,哦也是半懂半不懂的。

char* amatch(const char* text, const char* pat, int k)
{
  int m = strlen(pat);
  assert(m-k>0);
  assert((m-k)*(k+2)<= 64);
  int j;
  __int64 Din = 0;
  __int64 M1 = 0;
  __int64 M2 = 0;
  __int64 M3 = 0;
  __int64 G = 1 << k;
  int onekp1 = (1 << (k+1)) - 1;
  for (j=0; j<m-k; j++)
  {
    Din = (Din << (k+2))|onekp1;
    M1 = (M1 << (k+2))|1;
    if (j < m-k-1)
      M2 = (M2 << (k+2)) | 1;
  }
  M2=(M2<<(k+2))|onekp1;
  __int64 D=Din;
  const char* s=text;
  int c=*s++;
  while(c)
  {
    int found=0;
    const char* sp=pat;
    for(j=0;j<k+1;j++)
    {
      int cp=*sp++;
      if(c==cp)
      {
        found=1;
        break;
      }
    }
    if(found)
    {
      do
      {
        __int64 tc = 0;
        const char* sp = pat;
        for (j=0; j<m; j++)
        {
          int cp = *sp++;
          if (c!=cp)
          c|=(1<<j);
        }
        __int64 Tc = 0;
        for (j=0; j<m-k; j++)
        Tc = (Tc<<(k+2))|((tc>>j)&onekp1);
        __int64 x = (D>>(k+2))|Tc;
        D=((D<<1)|M1)&((D<<(k+3))|M2)&(((x+M1)^x)>>1)&Din;
        if((D & G) == 0)
          return (char*)s;
        if(D != Din)
          c = *s++;
      }
      while ( D != Din && c);
   }
   if (c)
     c = *s++;
}
return NULL;
}  
 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值