求一个字符串中连续出现的次数最多的子串

    求一个字符串中连续出现的次数最多的子串。例如字符串“abababc”,最多连续出现的为ab,连续出现三次。求一个字符串中连续出现的次数最多的子串,首先生成后缀数组。例如上面的字符串为:
abababc
bababc
ababc
babc
abc
bc
c
可以看出第一个后缀数组和第三个后缀数组的起始都为ab,第5个后缀数组也为ab。可以看出规律来,一个字符串s,如果第一次出现在后缀数组i的前面,那么如果它重复出现,下一次出现应该在第i+len(s)个后缀数组的前面。这个规律也不难看出。那么从头到尾按照这个规律搜索下不难得出结果。


基本算法描述:

    假如给出字符串abababa 
    1.首先穷举出所有的后缀子串
        substrs[0] = abababa;
        substrs[1] = bababa;
        substrs[2] = ababa;
        substrs[3] = baba;
        substrs[4] = aba;
        substrs[5] = ba;
        substrs[6] = a;
    2.然后进行循环比较
        substrs[0]比substrs[1]多了一个字母,如果说存在连续匹配的字符,那么
        substrs[0]的 第1个字母要跟substrs[1]首字母匹配,同理
        substrs[0]的 前2个字母要跟substrs[2]的前2个字母匹配(否则不能叫连续匹配)
        substrs[0]的 前n个字母要跟substrs[n]的前n个字母匹配.


        substrs[1]比substrs[2]多了一个字母,如果说存在连续匹配的字符,那么
        substrs[1]的第1个字母要跟substrs[2]首字母匹配,同理
        substrs[1]的前2个字母要跟substrs[3]的前2个字母匹配(否则不能叫连续匹配)
        substrs[1]的 前n个字母要跟substrs[n]的前n个字母匹配.  

         ...

        如果匹配的并记下匹配次数.如此可以求得连续出现次数最多的子串. 


自己的代码如下(已测试):

/*
  Author: RQF DSF
  Date: 05-07-14 10:10
  Description: 求一个字符串中连续出现次数最多的子串.      
*/

#include <iostream>
#include <string>
#include <vector>
using namespace std;

pair<int, string> fun(const string &str)
{
	vector<string> substrs;
	int maxcount = 1, count = 1;
	string substr;
	int i, len = str.length();

    //生成后缀数组
	for(i=0; i<len; ++i) 
	   substrs.push_back(str.substr(i, len-i));
    //输出后缀数组
	for(i=0; i<len; ++i)
	   cout << substrs[i] << endl;

	//外面的两层for循环示例,假设后缀数组为[0]-[3],则比较顺序为0-1 0-2 0-3 , 1-2 1-3 ,2-3
	for(i=0; i<len; ++i)
	{
		for(int j=i+1; j<len; ++j)
		{
			count = 1;
			//(substr注:如果没有指定长度_Count或_Count+_Off超出了源字符串的长度,则子字符串将延续到源字符串的结尾)
			if(substrs[i].substr(0, j-i) == substrs[j].substr(0,j-i))
			{
				++count;
				for(int k=j+(j-i); k<len; k+=j-i)
				{
					if (substrs[i].substr(0,j-i) == substrs[k].substr(0, j-i))
						++count;
					else
						break;
				}
				if(count > maxcount)
				{
					maxcount = count;
					substr=substrs[i].substr(0, j-i);
				}
			}
		}
	}
	return make_pair(maxcount, substr);
}

int main()
{
	pair<int, string> rs;
	string str="abababababaccccc";
	rs = fun(str);
	cout << rs.second<<"是连续出现次数最多的字串,其出现次数为:"<<rs.first<<'\n';
	return 0;
}

其中还有待优化的地方(有时要比较的子串超出后缀数组自身的长度,可以不进行比较)。

------------------------------------------------------------------------------------------------------------------------------

附Pair用法:

Pair类型概述

pair是一种模板类型,其中包含两个数据值,两个数据的类型可以不同,基本的定义如下:

pair<int, string> a;

表示a中有两个类型,第一个元素是int型的,第二个元素是string类型的,如果创建pair的时候没有对其进行初始化,则调用默认构造函数对其初始化。


pair<string, string> a("James", "Joy");

也可以像上面一样在定义的时候直接对其初始化。

 

由于pair类型的使用比较繁琐,因为如果要定义多个形同的pair类型的时候,可以时候typedef简化声明:

typedef pair<string, string> author;

author pro("May", "Lily");

author joye("James", "Joyce");


Pair对象的操作

  • 于pair类,由于它只有两个元素,分别名为first和second,因此直接使用普通的点操作符即可访问其成员

pair<string, string> a("Lily", "Poly"); 

string name;

name = pair.second;

  • 生成新的pair对象

可以使用make_pair对已存在的两个数据构造一个新的pair类型:

int a = 8;

string m = "James";

pair<int, string> newone;

newone = make_pair(a, m);

------------------------------------------------------------------------------------------------------------------------------

还有另外一种解法:

#include <iostream>
using namespace std;

int con_sub(char *str, char **ret);

int main()
{
        char str[] = "abcabcabcabcabcabbbb";
        char *ret = NULL;
        int time = con_sub(str, &ret);
        printf("%s occuers %d times\n", ret, time);
        return 0;
}

int con_sub(char *str, char **ret)
{
        int max_time = 0;//连续出现的最多次数
        int ret_len = 0;//连续出现的字符串的长度
        char *addr = NULL;//连续出现字符串的起始地址

        int len = strlen(str);
        char **a = (char **)malloc(sizeof(char *)*len);
        //生成后缀数组
        for(int i=0; i<len; i++)
                a[i] = &str[i];

        //重复字符串的长度范围为1到(len+1)/2
        for(int i=1; i<=(len+1)/2; i++)
        {
                //当重复的字符串长度为i的时候,如果是连续出现的,那么第j和第j+i个后缀数组前面为重复的字符串
                for(int j=0; j+i<=len-1; j+=i)
                {
                        int k = j;
                        int temp_time = 1;
                        while(k+i <= len-1 && strncmp(a[k], a[k+i], i) == 0)
                        {
                                temp_time++;
                                k += i;
                        }
                        if(temp_time > max_time)
                        {
                                max_time = temp_time;
                                ret_len = i;
                                addr = a[k];
                        }
                }
        }
        *ret = new char[len+1];
        strncpy(*ret, addr, ret_len);
        return max_time;
}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值