算法:单模式串匹配

我爱夜来香A

已于 2022-08-17 09:58:00 修改

阅读量132

点赞数 1

分类专栏：数据结构和算法文章标签：算法学习

于 2022-07-05 14:05:36 首次发布

本文链接：https://blog.csdn.net/nzbing/article/details/125618566

版权

数据结构和算法专栏收录该内容

13 篇文章 0 订阅

订阅专栏

StringMatch

一、简介

单模式串匹配算法:是在一个模式串和一个主串之间进行匹配,也就是说在一个主串中查找另一个模式串

BF:主串和模式串都不太长,时间复杂度为O(m*n)
BM:模式串最好不要太长,预处理较重,实现较复杂,需要更多额外空间
KMP:适合所有场景,整体实现起来也比BM简单,只需要一个next数组,但理解起来较难且统计分析下比BM慢
sundy:算是对BM算法的改造,实现起来较简单

二、BF(Brute-Force-Match)

package StringMatch;

/*
    字符串匹配:暴力匹配算法
 */

public class VoliceMatch {
    public static int  volicematch(String a,String b){
        char[] s1 = a.toCharArray();
        char[] s2 = b.toCharArray();

        int m = s1.length;
        int n = s2.length;

        for (int i = 0; i <= m - n;i++){
            int k = 0;
            for (int j = 0;j < n;j++){
                if (s1[i+j] != s2[j]){
                    break;
                }else{
                    k++;
                }
            }
            if (k == n){
                return i;
            }
        }
        return -1;
    }

    public static void main(String[] args) {
        System.out.println(volicematch("hellllo","lo"));
    }
}

三、BM(Boyer-Moore)

package StringMatch;

/*
    BM算法:
   思路:坏字符和好后缀原则
   eg:第一次匹配
        主串a:abcebmabcnbabceba,长度为m
      模式串b:abaeba,长度为n
   坏字符原则:从后往前匹配,把匹配不上的对应的主串的字符称为坏字符,若坏字符为倒数第一位,则可以往右直接滑动n位,若坏字符不确定,为了保证不移动过多而错过匹配,可以把坏字符对应的模式串下标记为s,
   把坏字符在模式串中的位置记为x,若坏字符在模式串中不存在,x为-1,若坏字符在模式串中有多个,取最后一个下标,往右滑动s-x位,第一次匹配时,坏字符为m,s为5,m在模式串中找不到,记为-1,往右移动6位.
   但仅仅靠坏字符匹配是不行的,比如主串是baabaaa,模式串为aaab,第一次匹配时,坏字符为b,s为0,x为b在模式串中位置,为3,往右移动了-3位,显然是不行的,为此引入的好后缀原则
   eg:第二次匹配
        主串a:abcebmabcnbabaeba,长度为m
      模式串b:      abaeba,长度为n
   好后缀原则:为了弥补坏字符可能出现往右偏移为负数的情况,如上述eg中第二次匹配时,坏字符为n,但是坏字符后的ba是能够匹配上的,我们称之为好后缀,假如好后缀在模式串中能找到另一个,开始下标记为x,往右偏移
   s-x+1位 = 3 - 1 + 1 = 3位,相当于如下所示,把另一个ba与好后缀ba对应上
        主串a:abcebmabcnbabaeba,长度为m
      模式串b:         abaeba,长度为n
   若好后缀在模式串中找不到另一个呢?如下所示,这时候判断好后缀的后缀子串与模式串的前缀子串能否匹配上,如好后缀为ba,后缀子串为a,a正好能跟模式串的第一位匹配上,这时往右移动j+2=5位
        主串a:abcebmabcnbabmeba,长度为m
      模式串b:      abmeba,长度为n
   上图所示例子好后缀只有两位,所以好后缀的后缀子串只能有1位,但好后缀的后缀子串有多位呢?此时还能移动j+2位吗?,如下所示,好后缀为ceba,且模式串中找不到ceba,此时eba的后缀子串为eba,ba,a,此时只有ba能与模式串的前缀子串匹配上,应该往
   右偏移j+2+1位,可以这么理解若好后缀的后缀子串只有1位能与模式串前缀子串匹配上,直接偏移j+2,好后缀的后缀子串增加一位,j+2相应加1
        主串a:abcebmabcebabaeba,长度为m
      模式串b:      baceba,长度为n
    用坏字符和好后缀都会得到一个往右的偏移量,比较哪个偏移量大即可
 */
public class BmMatch_zhu {
    private static final int SIZE = 256;
    public static int bmmatch_zhu(String str1,int m,String str2,int n){
        char[] a = str1.toCharArray();
        char[] b = str2.toCharArray();
        int[] bc = new int[SIZE];
        geneteBc(b,n,bc);
        int[] hz = new int[n];
        boolean[] qz = new boolean[n];
        genetehzqz(b,n,hz,qz);
        int i = 0;
        while (i <= m - n){
            int j;
            for (j = n - 1;j >= 0;j--){
                if (a[i+j] != b[j]){
                    break;
                }
            }
            if (j == -1){
                return i;
            }
            int x = j - bc[(int)a[i+j]];
            int y = 0;
            if (j < n - 1){
                y = move(j,n,hz,qz);
            }
            i = i + Math.max(x,y);
        }
        return -1;
    }

    private static void geneteBc(char[] b,int n,int[] bc){
        for (int i = 0; i < SIZE;i++){
            bc[i] = -1;
        }

        for  (int i = 0; i < n; i++){
            int ascii = (int)b[i];
            bc[ascii] = i;
        }
    }

    private static void genetehzqz(char[] b,int n,int[] hz,boolean[] qz){
        for (int i = 0; i < n; i++){
            hz[i] = -1;
            qz[i] = false;
        }

        for (int i = 0; i < n - 1;i++){
            int j = i;
            int k = 0;
            while (j >= 0 && b[j] == b[n-1-k]){
                j--;
                k++;
                hz[k] = j + 1;
            }
            if (j == -1){
                qz[k] = true;
            }
        }
    }

    private static int move(int j,int n,int[] hz,boolean[] qz){
        int k = n - j - 1;
        if (hz[k] != -1){
            return j - hz[k] + 1;
        }

        for (int r = j + 2; r <= n - 1;r++){
            if (qz[n - r] == true){
                return r;
            }
        }
        return n;
    }

    public static void main(String[] args) {
        System.out.println(bmmatch_zhu("hello",5,"lo",2));
    }
}

四、KMP(Knuth-Morris-Pratt)

package StringMatch;

/*
    思路:好前缀原则
    不同于bm算法的是,kmp算法是从前往后比较,这样找到坏字符后比较的就是好前缀,如
        主串a:ababaeabac,长度为m
      模式串b:ababacd,长度为n
    上述eg中坏字符为主串中的e,e前面的字符就称为好前缀,我们要在好前缀中找到最长可匹配前缀子串,如ababa的最长可匹配前缀子串为aba,找到最长可匹配前缀子串的最后一个字符下标位置,即2,比较b[2]和坏字符位置即可
        主串a:ababaeabac,长度为m
      模式串b:  ababacd,长度为n
 */
public class KmpMatch_zhu {

    public static int kmpmatch_zhu(String str1,int m,String str2,int n){
        char[] a = str1.toCharArray();
        char[] b = str2.toCharArray();
        int[] next = getNext(b,n);
        int j = 0;
        for (int i = 0; i < m;i++){
            while (j > 0 && a[i] != b[j]){
                j = next[j-1]+1;
            }

            if (a[i] == b[j]){
                j++;
            }

            if (j == n){
                return i - n + 1;
            }
        }
        return -1;
    }

    public static int[] getNext(char[] b,int n){
        int[] next = new int[n];
        next[0] = -1;
        int k = -1;
        for (int i = 1; i < n; i++){
            while(k != -1 && b[k+1] != b[i]){
                k = next[k];
            }

            if (b[k+1] == b[i]){
                k++;
            }

            next[i] = k;
        }
        return next;
    }

    public static void main(String[] args) {
        String str1 = "helllo";
        String str2 = "lo";
        System.out.println(kmpmatch_zhu(str1,str1.length(),str2,str2.length()));
    }
}

五、Sundy

package StringMatch;

/*
    思路:Sundy是对BM算法的简化
    BM算法是模式串从后往前匹配,Sundy算法和Kmp算法一样,从前往后匹配,当遇到不匹配的时候
    eg:
    主串:  substringsearching,长度为m
    模式串:search,长度为n
    比如说第二个字符就不匹配,找出主串中参与匹配的末尾字符的下一个字符,这里是i,判断i在模式串中存不存在,若不存在,直接把模式串往右偏移n+1位,如下所示
    substringsearching
           search
    若存在,如上所示,第二次匹配不上的是n,末尾的下一次字符是c,c在模式串是存在的,找到c在模式串对应的最后一个下标,即3,模式串往右偏移n-3 = 3位,如下所示,就匹配上了
     substringsearching
              search
     因为sundy算法没有好后缀原则,当遇到某种极端情况下是比较慢的,如
     baaaaaaa
     aaaaa
     这里第一次b是不匹配的,末尾的下一个字符为a,找到a在模式串的最后一个下标,即4,模式串往右偏移n-4 = 1位,若都是这种情况,可能每次都移动一位,时间复杂度就退化到和暴力匹配一样O(m*n)
 */
public class SundyMatch {
    private static final int SIZE = 256;

    public static int sundymathc(String str1,int m,String str2, int n){
        char[] a = str1.toCharArray();
        char[] b = str2.toCharArray();
        int[] move = getMove(b,n);
        int i = 0;
        while(i <= m - n){
            int j = 0;
            while (a[i+j] == b[j]){
                j++;
                if (j == n){
                    return i;
                }
            }
            i += move[(int)a[i+n]];
        }
        return -1;
    }

    private static int[] getMove(char[] b,int n){
        int[] move = new int[SIZE];
        //初始化
        for (int i = 0; i < SIZE; i++){
            move[i] = n + 1;
        }

        for (int i = 0; i < n; i++){
            int ascii = (int)b[i];
            move[ascii] = n - i;
        }
        return move;
    }

    public static void main(String[] args) {
        String a = "helllllllo";
        String b = "lo";
        System.out.println(sundymathc(a,a.length(),b,b.length()));
    }
}