寻找字符字串的两个方法

最新推荐文章于 2023-08-09 15:24:38 发布

seaicelin

最新推荐文章于 2023-08-09 15:24:38 发布

阅读量449

点赞数

文章标签： kmp

本文链接：https://blog.csdn.net/amd123456789/article/details/78300415

版权

寻找字符子串的两个方法

提供两个字符串 A 和 B，求 B 在 A 中出现的次数和位置。

直接暴力匹配时间复杂度太高，效率太低，时间一定会超时。

两个方法

KMP 算法，时间复杂度O(m + n);

源码：

//优化过后的next数组求法，核心部分
void GetNextval(char* p, int next[])  
{  
    int pLen = strlen(p);  
    next[0] = -1;  
    int k = -1;  
    int j = 0;  
    while (j < pLen - 1)  
    {  
        //p[k]表示前缀，p[j]表示后缀    
        if (k == -1 || p[j] == p[k])  
        {  
            ++j;  
            ++k;  
            //较之前next数组求法，改动在下面4行  
            if (p[j] != p[k])  
                next[j] = k;   //之前只有这一行  
            else  
                //因为不能出现p[j] = p[ next[j ]]，所以当出现时需要继续递归，k = next[k] = next[next[k]]  
                next[j] = next[k];  
        }  
        else  
        {  
            k = next[k];  
        }  
    }  
}  

//KMP 算法
int KmpSearch(char* s, char* p)  
{  
    int i = 0;  
    int j = 0;  
    int sLen = strlen(s);  
    int pLen = strlen(p);  
    while (i < sLen && j < pLen)  
    {  
        //①如果j = -1，或者当前字符匹配成功（即S[i] == P[j]），都令i++，j++      
        if (j == -1 || s[i] == p[j])  
        {  
            i++;  
            j++;  
        }  
        else  
        {  
            //②如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]      
            //next[j]即为j所对应的next值        
            j = next[j];  
        }  
    }  
    if (j == pLen)  
        return i - j;  
    else  
        return -1;  
}

哈希算法，时间复杂度度O(m+n)

源码

#define rint register int 

#define ULL unsigned long long

const ULL seed = 131;

inline int strlen(const char* src)
{
    rint len = 0;
    while(src[len]) len++;
    return len;
}

RESULT search(const char* src, const char* substr)
{
    RESULT res;
    res.count = 0;

    int srcLen = strlen(src);
    int subLen = strlen(substr);

    ULL sum = 1;
    for(rint i = 0; i < subLen; i++)
    {
        sum *= seed;
    }

    ULL strHash = 0;
    ULL subHash = 0;
    //核心部分
    for(rint i = 0; i < subLen; i++)
    {
        strHash = strHash * seed + src[i];
        subHash = subHash * seed + substr[i];
    }

    for(rint i = 0; i + subLen < srcLen; i++)
    {
        if(strHash == subHash)
        {
            res.indexes[res.count++] = i;
        }
        if(i + subLen < srcLen)
            strHash = strHash * seed + src[i + subLen] - src[i] * sum;
    }
    return res;
}

哈希函数原型：

unsigned int BkdrHash(const char* str, unsigned int len){
    unsigned int seed = 131; /*31 131 1313 13131 131313 etc*/
    unsigned int hash = 0;
    for(int i = 0; i < len; ++i){
        hash = (hash * seed) + (*str++);
    }
    return hash;
}