字符串处理算法总结

这是一篇我一直很想写的文章。

接触算法以及软件设计时间越来越久, 大概总结了一下, 经常碰到的数据类型而且处理起来最繁杂的就算是字符类型了。于是想花点时间一边学习,一边写这篇总结。 同样,这篇博客我会定时持续更新。

我将字符串处理算法大概分成:字符串Hash  | LCS(KMP + 扩展KMP)|  LCP(后缀数组)|(Trie + AC自动机), 题目不一定按照这个顺序更新。

字符串Hash





LCS






LCP(最长公共前缀)

 主要有倍增和DC3两种方式, 都不太好理解,自己比较喜欢的是倍增写法。

所谓倍增, 就是每次2^k的范围进行比较, 其中需要用到的数组有SA和rank数组, SA[i]表示的是排名第i的后缀,rank[i]表示的是第i的后缀的排名是rank[i].

显然SA跟rank是一组互逆的关系, 知道其中一个可以很快求出另外一个。 倍增算法中就是利用这个方法结合倍增的思想, 在o(n*lgn)的时间求出SA,其中的lgn是倍增的

最大次数, 而n是基于基数排序的时间复杂度。(不一定要用基数排序, 在数据量很大的情况下可以考虑快速排序)




Trie

这是一种利用公共前缀保存字符串的算法, 相当于一个多叉路径查找树。有了这样的设计之后, 当我们在一堆字符串中查找某个字符串是否存在的效率也变的很高。

常见的写法是动态分配与静态分配两种。 如果多组数据的话, 动态分配可能会超内存(无法及时释放内存的话)则更加适合使用静态分配的方法。

LA3942 

题目不难, 但是相当坑。 我使用了lrj书上介绍的那种Trie写法, 但是很可惜调试好久由于内存的问题都没能A掉。最后我只能使用动态分配的方式过掉了此题。

题意:给出n(n <= 4000)个长度不超过100的字符串L1 ~ Ln, 然后给出一个字符串S,长度<3e5, 现在想将S分解成由Li的拼接起来的字符串, 求多少种拼接方式。

分析:可以确定的是要使用DP. 设dp[i]表示从i开始的字符串可以有dp[i]种分解方式, 则dp[i] = sigma(dp[k]) ( i<k<n),其中i到k-1的字符可以拼出字符串Li.

由于字符串的个数很多, 如果一个个去查找就会超时。 可以采用trie来保存字符串。 这样可以在O(n)的时间判断有没有当前拼接的字符串。

#include<cstdio>
#include<iostream>
#include<cstring>
#include<string>
#include<algorithm>
using namespace std;
const int N = 300001;
string s;
int dp[N];
const int MOD = 20071027;
int n;

struct Trie{
	Trie(){
		va = 0;
		memset(next, NULL, sizeof(next));
	}	

	int va;
	Trie *next[26];
} *root;

void Insert(string s){
     Trie* p = root;
     int n = s.size();
     for(int i = 0; i < n; ++i){
           int c = s[i] - 'a';
           if(p -> next[c] == NULL){
                p -> next[c] = new Trie;
           }        
		   p = p -> next[c];
     }
	 p -> va = 1;
}

int Gao(int src){
	if(src >= n) return 1;
	if(dp[src] != -1) return dp[src];
	int j = src;
	Trie *p = root;
	int ret = 0;
	while(j < n){
		int idx = s[j] - 'a';
		if(p -> next[idx]){
			if(p -> next[idx] -> va){
        //         printf("j = %d\n", j);
				dp[j + 1] = Gao(j + 1);
				ret += dp[j + 1];
				ret %= MOD;
			}
			p = p -> next[idx];
		}
		else break;
		++j;
	}
	dp[src] = ret;
	return ret;
}

int main(){
	int cases = 1;
	while(cin >> s){
		int m;
       	root = new Trie;
		scanf("%d", &m);
		for(int i = 0; i < m; ++i){
			string tmp;
			cin >> tmp;
			Insert(tmp);
		}	
		n = s.size();
		memset(dp, -1, sizeof(dp));
		printf("Case %d: %d\n", cases++,  Gao(0));
	}
	return 0;
}


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值