哈希算法在模式匹配问题中的应用

哈希:

哈希算法将任意长度的二进制值映射为较短的固定长度的二进制值,这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母,随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入,在计算上是不可能的,所以数据的哈希值可以检验数据的完整性。一般用于快速查找和加密算法。

模式匹配:

模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串,这就是模式匹配。

利用哈希算法解决模式匹配问题,定义模式匹配问题为在 S 字符串中寻找 T 字符串出现的次数及每次出现的起始位置。

首先朴素算法:
计算出 T 串的哈希值,与 S 串中每一个连续且长度为 |T| 的字符串进行哈希值比较,若 S 中每个字符串都重新开始计算哈希值,复杂度为 O(|T||S|)

优化算法:
通过特殊设计的哈希函数,使得可以在 O(1) 的时间复杂度内由 hash[i,j] ,递推出 hash[i+1,j+1] 。复杂度降为 O(n+m)

哈希函数设计:

hash[i,j]={x=0jiBasejixS[x+i]}%mod
其中:
hash[i,j] ,表示下标从 i 到 j 这一段的哈希值
Base ,是一个任取的基数
S[i] ,表示字符串第 i 位字符的编码
mod ,是一个任取 ( 最好为质数 ) 的足够大的值,是哈希值的取值范围

由取模运算的性质可以推出
hash[i+1,j+1]={hash[i,j]BasejiS[i]}Base+S[j+1]

代码如下:
题目为HDOJ 1686 Oulipo
http://acm.hdu.edu.cn/showproblem.php?pid=1686

#define author Reskip
#define uint unsigned int
#define maxn 1000005
uint base = 13331;
uint debase;
char data[maxn];
uint cmp;
uint tcmp;

int main()
{
    int t;
    cin >> t;
    while (t--)
    {
        int ans = 0;
        int len = 0;
        debase = 1;
        cmp = 0;
        tcmp = 0;

        scanf("%s", &data);
        for (int i = 0; data[i]; i++)
        {
            len++;
            cmp *= base;
            debase *= base;
            cmp += data[i];
        }
        scanf("%s", &data);
        for (int i = 0; data[i]; i++)
        {
            tcmp *= base;
            tcmp += data[i];
            if (i >= len)
            {
                tcmp -= data[i - len] * debase;
            }
            if (tcmp == cmp)
            {
                ans++;
            }
        }
        cout << ans << "\n";
    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值