求一个字符串中连续出现的次数最多的子串。例如字符串“abababc”,最多连续出现的为ab,连续出现三次。求一个字符串中连续出现的次数最多的子串,首先生成后缀数组。例如上面的字符串为:
abababc
bababc
ababc
babc
abc
bc
c
可以看出第一个后缀数组和第三个后缀数组的起始都为ab,第5个后缀数组也为ab。可以看出规律来,一个字符串s,如果第一次出现在后缀数组i的前面,那么如果它重复出现,下一次出现应该在第i+len(s)个后缀数组的前面。这个规律也不难看出。那么从头到尾按照这个规律搜索下不难得出结果。
基本算法描述:
假如给出字符串abababa1.首先穷举出所有的后缀子串
substrs[0] = abababa;
substrs[1] = bababa;
substrs[2] = ababa;
substrs[3] = baba;
substrs[4] = aba;
substrs[5] = ba;
substrs[6] = a;
2.然后进行循环比较
substrs[0]比substrs[1]多了一个字母,如果说存在连续匹配的字符,那么
substrs[0]的 第1个字母要跟substrs[1]首字母匹配,同理
substrs[0]的 前2个字母要跟substrs[2]的前2个字母匹配(否则不能叫连续匹配)
substrs[0]的 前n个字母要跟substrs[n]的前n个字母匹配.
substrs[1]比substrs[2]多了一个字母,如果说存在连续匹配的字符,那么
substrs[1]的第1个字母要跟substrs[2]首字母匹配,同理
substrs[1]的前2个字母要跟substrs[3]的前2个字母匹配(否则不能叫连续匹配)
substrs[1]的 前n个字母要跟substrs[n]的前n个字母匹配.
...
如果匹配的并记下匹配次数.如此可以求得连续出现次数最多的子串.
自己的代码如下(已测试):
/*
Author: RQF DSF
Date: 05-07-14 10:10
Description: 求一个字符串中连续出现次数最多的子串.
*/
#include <iostream>
#include <string>
#include <vector>
using namespace std;
pair<int, string> fun(const string &str)
{
vector<string> substrs;
int maxcount = 1, count = 1;
string substr;
int i, len = str.length();
//生成后缀数组
for(i=0; i<len; ++i)
substrs.push_back(str.substr(i, len-i));
//输出后缀数组
for(i=0; i<len; ++i)
cout << substrs[i] << endl;
//外面的两层for循环示例,假设后缀数组为[0]-[3],则比较顺序为0-1 0-2 0-3 , 1-2 1-3 ,2-3
for(i=0; i<len; ++i)
{
for(int j=i+1; j<len; ++j)
{
count = 1;
//(substr注:如果没有指定长度_Count或_Count+_Off超出了源字符串的长度,则子字符串将延续到源字符串的结尾)
if(substrs[i].substr(0, j-i) == substrs[j].substr(0,j-i))
{
++count;
for(int k=j+(j-i); k<len; k+=j-i)
{
if (substrs[i].substr(0,j-i) == substrs[k].substr(0, j-i))
++count;
else
break;
}
if(count > maxcount)
{
maxcount = count;
substr=substrs[i].substr(0, j-i);
}
}
}
}
return make_pair(maxcount, substr);
}
int main()
{
pair<int, string> rs;
string str="abababababaccccc";
rs = fun(str);
cout << rs.second<<"是连续出现次数最多的字串,其出现次数为:"<<rs.first<<'\n';
return 0;
}
其中还有待优化的地方(有时要比较的子串超出后缀数组自身的长度,可以不进行比较)。
------------------------------------------------------------------------------------------------------------------------------
附Pair用法:
Pair类型概述
pair是一种模板类型,其中包含两个数据值,两个数据的类型可以不同,基本的定义如下:
pair<int, string> a;
表示a中有两个类型,第一个元素是int型的,第二个元素是string类型的,如果创建pair的时候没有对其进行初始化,则调用默认构造函数对其初始化。
pair<string, string> a("James", "Joy");
也可以像上面一样在定义的时候直接对其初始化。
由于pair类型的使用比较繁琐,因为如果要定义多个形同的pair类型的时候,可以时候typedef简化声明:
typedef pair<string, string> author;
author pro("May", "Lily");
author joye("James", "Joyce");
Pair对象的操作
-
对于pair类,由于它只有两个元素,分别名为first和second,因此直接使用普通的点操作符即可访问其成员
pair<string, string> a("Lily", "Poly");
string name;
name = pair.second;
- 生成新的pair对象
可以使用make_pair对已存在的两个数据构造一个新的pair类型:
int a = 8;
string m = "James";
pair<int, string> newone;
newone = make_pair(a, m);
------------------------------------------------------------------------------------------------------------------------------还有另外一种解法:
#include <iostream>
using namespace std;
int con_sub(char *str, char **ret);
int main()
{
char str[] = "abcabcabcabcabcabbbb";
char *ret = NULL;
int time = con_sub(str, &ret);
printf("%s occuers %d times\n", ret, time);
return 0;
}
int con_sub(char *str, char **ret)
{
int max_time = 0;//连续出现的最多次数
int ret_len = 0;//连续出现的字符串的长度
char *addr = NULL;//连续出现字符串的起始地址
int len = strlen(str);
char **a = (char **)malloc(sizeof(char *)*len);
//生成后缀数组
for(int i=0; i<len; i++)
a[i] = &str[i];
//重复字符串的长度范围为1到(len+1)/2
for(int i=1; i<=(len+1)/2; i++)
{
//当重复的字符串长度为i的时候,如果是连续出现的,那么第j和第j+i个后缀数组前面为重复的字符串
for(int j=0; j+i<=len-1; j+=i)
{
int k = j;
int temp_time = 1;
while(k+i <= len-1 && strncmp(a[k], a[k+i], i) == 0)
{
temp_time++;
k += i;
}
if(temp_time > max_time)
{
max_time = temp_time;
ret_len = i;
addr = a[k];
}
}
}
*ret = new char[len+1];
strncpy(*ret, addr, ret_len);
return max_time;
}