【408考点之数据结构】串的模式匹配算法

串的模式匹配算法

在计算机科学中,串的模式匹配是一个重要的问题,涉及在一个主串(Text)中寻找一个子串(Pattern)的出现位置。模式匹配算法是解决这一问题的核心,主要目标是提高匹配效率。以下介绍几种常见的模式匹配算法及其实现。

1. 朴素匹配算法(Naive Matching Algorithm)

朴素匹配算法是最基本的字符串匹配算法,依次将模式串与主串的各个子串进行比较,直到找到匹配的子串或遍历完整个主串。其时间复杂度为O((n-m+1)*m),其中n为主串长度,m为模式串长度。

算法思路

  1. 从主串的第一个字符开始,将模式串与主串的子串进行逐个字符比较。
  2. 如果匹配成功,则返回匹配的位置。
  3. 如果匹配失败,则将模式串右移一位,继续比较。
  4. 重复上述过程,直到找到匹配或遍历完整个主串。

代码实现

#include <stdio.h>
#include <string.h>

// 朴素匹配算法
int naiveMatch(char* text, char* pattern) {
    int n = strlen(text);
    int m = strlen(pattern);
    for (int i = 0; i <= n - m; i++) {
        int j = 0;
        while (j < m && text[i + j] == pattern[j]) {
            j++;
        }
        if (j == m) {
            return i; // 匹配成功,返回匹配位置
        }
    }
    return -1; // 匹配失败
}

int main() {
    char text[] = "hello world";
    char pattern[] = "world";
    int pos = naiveMatch(text, pattern);
    if (pos != -1) {
        printf("Pattern found at position %d\n", pos);
    } else {
        printf("Pattern not found\n");
    }
    return 0;
}
2. KMP算法(Knuth-Morris-Pratt Algorithm)

KMP算法通过预处理模式串,构建部分匹配表(Partial Match Table),避免了重复比较,显著提高了匹配效率。其时间复杂度为O(n + m)。

算法思路

  1. 预处理模式串,构建部分匹配表(next数组),记录模式串中各个前缀的最长可匹配后缀长度。
  2. 利用部分匹配表,在匹配过程中遇到不匹配字符时,模式串右移位数为当前字符的部分匹配值,避免了重复比较。

代码实现

#include <stdio.h>
#include <string.h>

// 计算部分匹配表(next数组)
void computeNext(char* pattern, int* next) {
    int m = strlen(pattern);
    next[0] = 0;
    int j = 0;
    for (int i = 1; i < m; i++) {
        while (j > 0 && pattern[i] != pattern[j]) {
            j = next[j - 1];
        }
        if (pattern[i] == pattern[j]) {
            j++;
        }
        next[i] = j;
    }
}

// KMP匹配算法
int kmpMatch(char* text, char* pattern) {
    int n = strlen(text);
    int m = strlen(pattern);
    int next[m];
    computeNext(pattern, next);

    int j = 0;
    for (int i = 0; i < n; i++) {
        while (j > 0 && text[i] != pattern[j]) {
            j = next[j - 1];
        }
        if (text[i] == pattern[j]) {
            j++;
        }
        if (j == m) {
            return i - m + 1; // 匹配成功,返回匹配位置
        }
    }
    return -1; // 匹配失败
}

int main() {
    char text[] = "hello world";
    char pattern[] = "world";
    int pos = kmpMatch(text, pattern);
    if (pos != -1) {
        printf("Pattern found at position %d\n", pos);
    } else {
        printf("Pattern not found\n");
    }
    return 0;
}
3. BM算法(Boyer-Moore Algorithm)

BM算法通过模式串的预处理,在匹配过程中利用坏字符规则(Bad Character Rule)和好后缀规则(Good Suffix Rule)实现大跨度的跳跃,从而提高匹配效率。其时间复杂度为O(n)。

算法思路

  1. 预处理模式串,构建坏字符规则表和好后缀规则表。
  2. 从模式串的最后一个字符开始进行匹配,利用规则表决定模式串的移动位数。

代码实现

#include <stdio.h>
#include <string.h>

#define ALPHABET_SIZE 256

// 计算坏字符表
void computeBadChar(char* pattern, int m, int badChar[ALPHABET_SIZE]) {
    for (int i = 0; i < ALPHABET_SIZE; i++) {
        badChar[i] = -1;
    }
    for (int i = 0; i < m; i++) {
        badChar[(int)pattern[i]] = i;
    }
}

// BM匹配算法
int bmMatch(char* text, char* pattern) {
    int n = strlen(text);
    int m = strlen(pattern);
    int badChar[ALPHABET_SIZE];
    computeBadChar(pattern, m, badChar);

    int s = 0; // 模式串相对主串的偏移量
    while (s <= n - m) {
        int j = m - 1;
        while (j >= 0 && pattern[j] == text[s + j]) {
            j--;
        }
        if (j < 0) {
            return s; // 匹配成功,返回匹配位置
        } else {
            s += (j - badChar[(int)text[s + j]] > 1) ? j - badChar[(int)text[s + j]] : 1;
        }
    }
    return -1; // 匹配失败
}

int main() {
    char text[] = "hello world";
    char pattern[] = "world";
    int pos = bmMatch(text, pattern);
    if (pos != -1) {
        printf("Pattern found at position %d\n", pos);
    } else {
        printf("Pattern not found\n");
    }
    return 0;
}

模式匹配算法在字符串处理和文本编辑中具有重要应用。朴素匹配算法简单易懂,但效率较低。KMP算法通过预处理模式串,避免重复比较,大幅提高了效率。BM算法则利用坏字符规则和好后缀规则,实现大跨度跳跃匹配,是效率较高的模式匹配算法。在实际应用中,根据需求选择合适的算法,可以显著提升程序的性能和处理速度。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
网络视频资源,如有侵权请留言/举报,资源过大上传乃是下载链接!!!! 1.1.1线性表的逻辑结构1_10 ], r3 `2 t% j& ? L& u( } 2.1.2线性表的顺序存储结构_1_2 3.1.3线性表的链式存储结构_1_3_22 h& A( D" j5 F- i+ I4 N% S 4.1.3线性表的链式存储结构1_3_1( C' z9 h3 ~: v" q" k 5.小结:顺序表和链表的比较与选择依据_1_4 6.章节总结及典型例题分析_1_5 7.2.1栈的类型定义_2_1 8.2.2栈的应用举例_2_2. _) \% q6 h* _6 p! { 9.2.3栈类型的实现_2_35 X$ M0 s z0 S& h7 g: s 10.2.4、2.5队列的类型定义及实现_2_40 F. |1 E$ @, T/ z2 g7 N( |, A 11.2.6、2.7数组的类型定义、数组的顺序表示和实现_2_5' T* _$ t* U5 E' ~: l' L% S& N7 i5 q 12.2.8特殊矩阵的压缩存储_2_6 13.章节总结及典型例题分析_2_7* i1 K% ?# a: k+ l; _ C# Y/ O 14.3.1树的类型定义_3_1( I5 J0 P0 o6 } n 15.3.2二叉树的类型定义_3_2 16.3.3二叉树的存储结构_3_3/ X0 p( f' d% |3 p 17.3.4遍历算法应用举例3_4_23 f, W M; b5 X+ {) R9 \# M: n/ g 18.3.4二叉树的遍历_3_4_1) c2 Y+ ^* v" K2 [: }2 n" | 19.3.5线索二叉树_3_5 20.3.6树和森林的表示法_3_6; a0 ?$ C5 K) |" K2 [6 t7 }2 i 21.3.7树和森林的遍历_3_7+ j4 p( B5 s6 `" n N |3 @ 22.3.8哈夫曼树和哈夫曼树编码_3_8' l) t* ^( i* Y% a ~. e, S- J 23.章节总结及典型例题分析_3_9' j: ?' j1 u( u: q& y 24.4.1抽象数据类型图的定义 25.4.2图的存储表示! t) e! R( L3 x" ^: D* y- y 26.4.3图的遍历' b r0 I; |4 V- j t$ y 27.4.4最小生成树6 Q9 P3 F. l J/ n 28.4.5拓扑排序7 Q1 X( t! E, O) ]4 |/ L 29.4.6关键路径_4_66 c e5 N2 D7 B8 d) D( n/ v/ ~ 30.4.7两点之间的最短路径问题+ u! d. o/ s7 b 31.4.8章节总结及典型例题分析4 S% p9 G: }/ s7 w 32.5.1静态查找表1 g j8 T7 |" X. o# P& r. A 33.5.2动态查找表 p3 c# L. [& y 34.5.3散列表) n7 y( K: K( o* H8 E/ _, }/ S 35.5.4字符模式匹配6 K2 X( o [. C; |' F 36.5.5章节总结及典型例题分析 37.6.1排序的基本概念# s: J( L. W- X6 Y# A# ?! G1 \1 } 38.6.2插入类排序* R" k' A3 E5 S: x 39.6.3交换类排序法 40.6.4选择类排序法 41.6.5归并排序、6.6分配类排序5 O' {1 c+ p1 [: h2 r) m 42.6.7各种排序方法的综合比较5 e8 p% s* L$ Y- P3 G+ K 43.章节总结及典型例题分析

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值