字符串处理算法精讲-CSDN博客

本文链接：https://blog.csdn.net/geek7wait2015/article/details/26493807

这是一篇我一直很想写的文章。

接触算法以及软件设计时间越来越久，大概总结了一下，经常碰到的数据类型而且处理起来最繁杂的就算是字符类型了。于是想花点时间一边学习，一边写这篇总结。同样,这篇博客我会定时持续更新。

我将字符串处理算法大概分成：字符串Hash | LCS（KMP + 扩展KMP）| LCP(后缀数组）|（Trie + AC自动机），题目不一定按照这个顺序更新。

字符串Hash

LCS

LCP（最长公共前缀）

主要有倍增和DC3两种方式，都不太好理解，自己比较喜欢的是倍增写法。

所谓倍增，就是每次2^k的范围进行比较，其中需要用到的数组有SA和rank数组， SA[i]表示的是排名第i的后缀，rank[i]表示的是第i的后缀的排名是rank[i].

显然SA跟rank是一组互逆的关系，知道其中一个可以很快求出另外一个。倍增算法中就是利用这个方法结合倍增的思想，在o(n*lgn)的时间求出SA，其中的lgn是倍增的

最大次数，而n是基于基数排序的时间复杂度。（不一定要用基数排序，在数据量很大的情况下可以考虑快速排序）

Trie

这是一种利用公共前缀保存字符串的算法，相当于一个多叉路径查找树。有了这样的设计之后，当我们在一堆字符串中查找某个字符串是否存在的效率也变的很高。

常见的写法是动态分配与静态分配两种。如果多组数据的话，动态分配可能会超内存（无法及时释放内存的话）则更加适合使用静态分配的方法。

LA3942

题目不难，但是相当坑。我使用了lrj书上介绍的那种Trie写法，但是很可惜调试好久由于内存的问题都没能A掉。最后我只能使用动态分配的方式过掉了此题。

题意：给出n（n <= 4000）个长度不超过100的字符串L1 ~ Ln，然后给出一个字符串S，长度<3e5，现在想将S分解成由Li的拼接起来的字符串，求多少种拼接方式。

分析：可以确定的是要使用DP. 设dp[i]表示从i开始的字符串可以有dp[i]种分解方式，则dp[i] = sigma(dp[k]) ( i<k<n)，其中i到k-1的字符可以拼出字符串Li.

由于字符串的个数很多，如果一个个去查找就会超时。可以采用trie来保存字符串。这样可以在O（n）的时间判断有没有当前拼接的字符串。

#include<cstdio>
#include<iostream>
#include<cstring>
#include<string>
#include<algorithm>
using namespace std;
const int N = 300001;
string s;
int dp[N];
const int MOD = 20071027;
int n;

struct Trie{
	Trie(){
		va = 0;
		memset(next, NULL, sizeof(next));
	}	

	int va;
	Trie *next[26];
} *root;

void Insert(string s){
     Trie* p = root;
     int n = s.size();
     for(int i = 0; i < n; ++i){
           int c = s[i] - 'a';
           if(p -> next[c] == NULL){
                p -> next[c] = new Trie;
           }        
		   p = p -> next[c];
     }
	 p -> va = 1;
}

int Gao(int src){
	if(src >= n) return 1;
	if(dp[src] != -1) return dp[src];
	int j = src;
	Trie *p = root;
	int ret = 0;
	while(j < n){
		int idx = s[j] - 'a';
		if(p -> next[idx]){
			if(p -> next[idx] -> va){
        //         printf("j = %d\n", j);
				dp[j + 1] = Gao(j + 1);
				ret += dp[j + 1];
				ret %= MOD;
			}
			p = p -> next[idx];
		}
		else break;
		++j;
	}
	dp[src] = ret;
	return ret;
}

int main(){
	int cases = 1;
	while(cin >> s){
		int m;
       	root = new Trie;
		scanf("%d", &m);
		for(int i = 0; i < m; ++i){
			string tmp;
			cin >> tmp;
			Insert(tmp);
		}	
		n = s.size();
		memset(dp, -1, sizeof(dp));
		printf("Case %d: %d\n", cases++,  Gao(0));
	}
	return 0;
}

字符串处理算法总结