spider monkey 中 BMH的使用

    因为项目中嵌入了spider monkey,需要做剪裁和扩展,因此对源码做了点研究。
在读String的实现的时候,发现str_IndexOf使用的字符串匹配算法就是著名的BMH算法,从实际效率考虑,并不是所有情况下都使用BMH算法,而是在如下情况下 if ((jsuint)(patlen - 2) <= BMH_PATLEN_MAX - 2 && textlen >= 512) 才使用,其余情况下则使用普通的遍历方法查找字符串。
patlen是匹配串长度,textlen是被匹配文本长度。BMH_PATLEN_MAX为255,是skip element的size,(uint8)。
前一个条件(jsuint)(patlen - 2) <= BMH_PATLEN_MAX - 2很好理解,patlen == 1的时候当然没必要使用BMH了,patlen > BMH_PATLEN_MAX 的时候 skip数组的元素长度不够。第2个条件textlen >= 512 似乎只能用实际的测试数据来说话了,简单的从复杂度来判断似乎说明不了什么。等有空找到典型的测试数据再补上来。

附上BMH算法,思想很简单,自己看代码就很容易理解了。

jsint
js_BoyerMooreHorspool(const jschar *text, jsint textlen,
                      const jschar *pat, jsint patlen,
                      jsint start)
{
    jsint i, j, k, m;
    uint8 skip[BMH_CHARSET_SIZE];
    jschar c;
 
    JS_ASSERT(0 < patlen && patlen <= BMH_PATLEN_MAX);
    for (i = 0; i < BMH_CHARSET_SIZE; i++)
        skip[i] = (uint8)patlen;
    m = patlen - 1;
    for (i = 0; i < m; i++) {
        c = pat[i];
        if (c >= BMH_CHARSET_SIZE)
            return BMH_BAD_PATTERN;
        skip[c] = (uint8)(m - i);
    }
    for (k = start + m;
         k < textlen;
         k += ((c = text[k]) >= BMH_CHARSET_SIZE) ? patlen : skip[c]) {
        for (i = k, j = m; ; i--, j--) {
            if (j < 0)
                return i + 1;
            if (text[i] != pat[j])
                break;
        }
    }
    return -1;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值