LCP数组的实现和最长公共连续子串

        LCP数组(Longest Common Prefix Array, 高度数组):是由后缀数组中相邻两个后缀的最长公共前缀的长度组成的数组。

        假设字符串S, 后缀数组sa, LCP数组lcp, 那么有后缀S[sa[i]...]与S[sa[i + 1]...]的最长公共前缀的长度为lcp[i]。

        lcp的计算: (后缀数组的实现)假设S[i...]与S[sa[rank[i]]...]的前h个字符的长度相等, 那么S[i+1...]与S[sa[rank[i + 1]]...]的前h - 1个字符也相等。 那么可以在O(n)的时间内求出lcp哦。

        lcp的简单应用:

        1)求一个字符串中出现次数至少两次的最长子串的长度。比如abracadabra,那么结果为4(abra出现两次且最长)。那么怎么利用lcp来求出答案呢?由后缀数组和lcp的性质可以知道,子串的开始位置在后缀数组中相距越远,其公共前缀的长度也就越短。找出lcp中最大的值,就是答案了。

        2)求两个字符串的最长公共连续子串。利用上面的结论,可以把两个字符串连接起来,然后对其求lcp即可。

S="abracadabra"的lcp
isa[i]lcp[i]S[sa[i]...]
0110'\0'(空)
1101a
274abra
301abracadabra
431acadabra
550adabra
683bra
710bracadabra
840cadabra
960dabra
1092ra
112-racadabra

#include <stdio.h>
#include <string.h>
#include <algorithm>
using namespace std;

#define MAX_N 10005
#define max(a, b) (a > b ? a : b)

char strA[MAX_N], strB[MAX_N], strC[MAX_N*2 + 5];
int sufArr[MAX_N], lcp[MAX_N], rank[MAX_N], temp[MAX_N];
int n, k;

bool compareSufArr(int i, int j) {
	int ri, rj;	
	
	if (rank[i] != rank[j]) {
		return rank[i] < rank[j];
	} else {
		ri = i + k <= n ? rank[i + k] : -1;
		rj = j + k <= n ? rank[j + k] : -1;
		return ri < rj;
	}
}

void constructSufArr(char* str, int* sa, int len) {
	int i;

	n = len;
	for (i = 0; i <= n; i++) {
		sa[i] = i;
		rank[i] = i < n ? str[i] : -1;
	}

	for (k = 1; k <= n; k *= 2) {
		sort(sa, sa + n + 1, compareSufArr);

		temp[sa[0]] = 0;
		for (i = 1; i <= n; i++) {
			temp[sa[i]] = temp[sa[i - 1]] + (compareSufArr(sa[i - 1], sa[i]) ? 1 : 0);
		}

		for (i = 0; i <= n; i++) {
			rank[i] = temp[i];
		}
	}
}

// 构造后缀数组的lcp
void constructLcp(char* str, int* sa, int* cp, int len) {
	int i, j;
	int h;

	for (i = 0; i <= len; i++) {
		rank[sa[i]] = i;
	}

	h = 0;
	cp[0] = 0;
	for (i = 0; i < len; i++) {
		j = sa[rank[i] - 1];

		if (h > 0) {
			--h;
		}

		while (i + h < n && j + h < n && str[i + h] == str[j + h]) {
			++h;
		}

		cp[rank[i] - 1] = h;
	}
} // O(n)


// 求一个字符串中出现过的最长重复子串
int lrs(char* str) {
	int len;
	int res;
	int i;
	
	len = strlen(str);
	constructSufArr(str, sufArr, len);
	constructLcp(str, sufArr, lcp, len);
	
	res = 0;
	for (i = 0; i < len; i++) {
		res = max(res, lcp[i]);
	}
	
	return res;
}

// 求两个字符串的最长公共连续子串
int lcs(char* ms, char* ss) {
	int ml, sl, len;
	int res;
	int i;

	ml = strlen(ms), sl = strlen(ss);

	// strC = ms + '\0' + ss
	strcpy(strC, ms);
	strC[ml + 1] = '\0';
	strcpy(strC + ml + 2, ss);

	// 对strC求后缀数组和lcp
	len = ml + sl + 2;
	constructSufArr(strC, sufArr, len);
	constructLcp(strC, sufArr, lcp, len);

	//
	res = 0;
	for (i = 0; i < len; i++) {
		// 需要分属不同的字符串,否则就变成了在同一个字符串中求最长公共连续子串的长度
		if ((sufArr[i] < ml) != (sufArr[i + 1] < ml)) {
			res = max(res, lcp[i]);
		}
	}

	return res;
}

int main() {

	while (scanf("%s%s", strA, strB) != EOF) {
		printf("%d %d\n", lrs(strA), lrs(strB));

		printf("%d\n", lcs(strA, strB));
	}

	return 0;
}
qbvdvghj suffixarray

abracadabra suffixarray

suffixarray abracadabra

abcdefg abcdefg

xyzqu iopcye

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
公共前缀(Longest Common Prefix,简称LCP)是指在一组字符中,所有字符共有的、最的前缀。 C++实现LCP的一种简单方法是使用字符数组,遍历字符数组中的每个字符的每个字符,直到出现不同的字符或到达某个字符的结尾。代码如下: ```c++ #include <iostream> #include <string> #include <vector> using namespace std; string longestCommonPrefix(vector<string>& strs) { if (strs.empty()) { return ""; } int n = strs.size(); int len = strs[0].size(); for (int i = 0; i < len; i++) { char c = strs[0][i]; for (int j = 1; j < n; j++) { if (strs[j][i] != c || i == strs[j].size()) { return strs[0].substr(0, i); } } } return strs[0]; } int main() { vector<string> strs = {"flower", "flow", "flight"}; string lcp = longestCommonPrefix(strs); cout << "Longest Common Prefix: " << lcp << endl; return 0; } ``` 在这个示例中,我们使用了一个字符数组`strs`来存储所有的字符。然后我们定义一个函数`longestCommonPrefix`来计算最公共前缀。如果字符数组为空,我们直接返回一个空字符。接着,我们遍历第一个字符中的每个字符。对于每个字符,我们检查所有其他字符在该位置上是否与它相同。如果有任何一个字符在该位置上与第一个字符不同,或者该字符已经到达了某个字符的结尾,我们就返回第一个字符的前缀。如果我们遍历完了第一个字符,那么第一个字符就是所有字符的最公共前缀。 在这个示例中,我们使用了`substr`函数来截取字符的前缀。如果最公共前缀为空字符,该函数会返回一个空字符
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值