字符串是否包含问题

最新推荐文章于 2024-04-21 11:36:12 发布

jtlyuan

最新推荐文章于 2024-04-21 11:36:12 发布

阅读量848

点赞数

分类专栏：数据结构与算法文章标签： string 算法存储优化

数据结构与算法专栏收录该内容

38 篇文章 1 订阅

订阅专栏

转载于：http://blog.csdn.net/v_july_v/article/details/6347454

第一节、一道俩个字符串是否包含的问题
1.1、O（n*m）的轮询方法
1.2、O(mlogm)+O(nlogn)+O(m+n)的排序方法
1.3、O（n+m）的计数排序方法
第二节
2.1、O（n+m）的hashtable的方法
2.2、O（n+m）的数组存储方法
第三节、O（n）到O（n+m）的素数方法

第一节、一道俩个字符串是否包含的问题
1.0、题目描述：
假设这有一个各种字母组成的字符串，假设这还有另外一个字符串，而且这个字符串里的字母数相对少一些。从算法是讲，什么方法能最快的查出所有小字符串里的字母在大字符串里都有？

比如，如果是下面两个字符串：
String 1: ABCDEFGHLMNOPQRS
String 2: DCGSRQPOM
答案是true，所有在string2里的字母string1也都有。

如果是下面两个字符串：
String 1: ABCDEFGHLMNOPQRS
String 2: DCGSRQPOZ
答案是false，因为第二个字符串里的Z字母不在第一个字符串里

1.1、O（n*m）的轮询方法

判断string2中的字符是否在string1中?：
String 1: ABCDEFGHLMNOPQRS
String 2: DCGSRQPOM

判断一个字符串是否在另一个字符串中，最直观也是最简单的思路是，针对第二个字符串string2中每一个字符，一一与第一个字符串string1中每个字符依次轮询比较，看它是否在第一个字符串string1中。

假设n是字符串string1的长度，m是字符串string2的长度，那么此算法，需要O（n*m）次操作，拿上面的例子来说，最坏的情况下将会有16*8 = 128次操作。

我们不难写出以下代码：

1. #include <iostream>

2. using namespace std;

4. int CompareSting(string LongSting,string ShortSting)

5. {

6. for (int i=0; i<ShortString.length(); i++)

7. {

8. for (int j=0; j<LongString.length(); j++) //O(n*m)

9. {

10. if (LongString[i] == ShortString[j]) //一一比较

11. {

12. break;

13. }

14.

15. }

16. if (j==LongString.length())

17. {

18. cout << "false" << endl;

19. return 0;

20. }

21. }

22. cout << "true" << endl;

23. return 1;

24. }

25.

26. int main()

27. {

28. string LongString="ABCDEFGHLMNOPQRS";

29. string ShortString="DCGSRQPOM";

30. compare(LongString,ShortString);

31. return 0;

32. }

上述代码的时间复杂度为O（n*m），显然，时间开销太大，我们需要找到一种更好的办法。

（网友acs713在本文评论下指出：个人的代码风格不规范，的确如此，后来看过<<代码大全>>之后，此感尤甚。个人会不断完善和规范此类代码风格。有任何问题，欢迎随时指正。谢谢大家。）

1.2、O(mlogm)+O(nlogn)+O(m+n)的排序方法
一个稍微好一点的方案是先对这两个字符串的字母进行排序，然后同时对两个字串依次轮询。两个字串的排序需要(常规情况)O(m log m) + O(n log n)次操作，之后的线性扫描需要O(m+n)次操作。

同样拿上面的字串做例子，将会需要16*4 + 8*3 = 88加上对两个字串线性扫描的16 + 8 = 24的操作。(随着字串长度的增长，你会发现这个算法的效果会越来越好)

关于采用何种排序方法，我们采用最常用的快速排序，下面的快速排序的代码用的是以前写的，比较好懂，并且，我执意不用库函数的qsort代码。唯一的问题是，此前写的代码是针对整数进行排序的，不过，难不倒我们，稍微改一下参数，即可，如下：

1. //copyright@ 2011 July && yansha

2. //July，updated，2011.04.23.

3. #include <iostream>

4. #include <string>

5. using namespace std;

7. //以前的注释，还让它保留着

8. int partition(string &str,int lo,int hi)

9. {

10. int key = str[hi]; //以最后一个元素，data[hi]为主元

11. int i = lo - 1;

12. for(int j = lo; j < hi; j++) ///注，j从p指向的是r-1，不是r。

13. {

14. if(str[j] <= key)

15. {

16. i++;

17. swap(str[i], str[j]);

18. }

19. }

20. swap(str[i+1], str[hi]); //不能改为swap(&data[i+1],&key)

21. return i + 1;

22. }

23.

24. //递归调用上述partition过程，完成排序。

25. void quicksort(string &str, int lo, int hi)

26. {

27. if (lo < hi)

28. {

29. int k = partition(str, lo, hi);

30. quicksort(str, lo, k - 1);

31. quicksort(str, k + 1, hi);

32. }

33. }

34.

35. //比较，上述排序O(m log m) + O(n log n)，加上下面的O(m+n)，

36. //时间复杂度总计为：O(mlogm)+O(nlogn)+O(m+n)。

37. void compare(string str1,string str2)

38. {

39. int posOne = 0;

40. int posTwo = 0;

41. while (posTwo < str2.length() && posOne < str1.length())

42. {

43. while (str1[posOne] < str2[posTwo] && posOne < str1.length() - 1)

44. posOne++;

45. //如果和str2相等，那就不能动。只有比str2小，才能动。

46.

47. if (str1[posOne] != str2[posTwo])

48. break;

49.

50. //posOne++;

51. //归并的时候，str1[str1Pos] == str[str2Pos]的时候，只能str2Pos++,str1Pos不可以自增。

52. //多谢helloword指正。

53.

54. posTwo++;

55. }

56.

57. if (posTwo == str2.length())

58. cout << "true" << endl;

59. else

60. cout << "false" << endl;

61. }

62.

63. int main()

64. {

65. string str1 = "ABCDEFGHLMNOPQRS";

66. string str2 = "DCGDSRQPOM";

67. //之前上面加了那句posOne++之所以有bug，是因为，@helloword：

68. //因为str1如果也只有一个D，一旦posOne++，就到了下一个不是'D'的字符上去了，

69. //而str2有俩D，posTwo++后，下一个字符还是'D'，就不等了，出现误判。

70.

71. quicksort(str1, 0, str1.length() - 1);

72. quicksort(str2, 0, str2.length() - 1); //先排序

73. compare(str1, str2); //后线性扫描

74. return 0;

75. }

第二节、寻求线性时间的解法
2.1、O（n+m）的hashtable的方法
上述方案中，较好的方法是先对字符串进行排序，然后再线性扫描，总的时间复杂度已经优化到了：O（m+n），貌似到了极限，还有没有更好的办法列?

我们可以对短字串进行轮询（此思路的叙述可能与网上的一些叙述有出入，因为我们最好是应该把短的先存储，那样，会降低题目的时间复杂度），把其中的每个字母都放入一个Hashtable里(我们始终设m为短字符串的长度，那么此项操作成本是O(m)或8次操作)。然后轮询长字符串，在Hashtable里查询短字符串的每个字符，看能否找到。如果找不到，说明没有匹配成功，轮询长字符串将消耗掉16次操作，这样两项操作加起来一共只有8+16=24次。
当然，理想情况是如果长字串的前缀就为短字串，只需消耗8次操作，这样总共只需8+8=16次。

或如梦想天窗所说：我之前用散列表做过一次，算法如下：
1、hash[26]，先全部清零，然后扫描短的字符串，若有相应的置1，
2、计算hash[26]中1的个数，记为m
3、扫描长字符串的每个字符a；若原来hash[a] == 1 ，则修改hash[a] = 0，并将m减1；若hash[a] == 0，则不做处理
4、若m == 0 or 扫描结束，退出循环。

代码实现，也不难，如下：

1. //copyright@ 2011 yansha

2. //July、updated，2011.04.25。

3. #include <iostream>

4. #include <string>

5. using namespace std;

7. int main()

8. {

9. string str1="ABCDEFGHLMNOPQRS";

10. string str2="DCGSRQPOM";

11.

12. // 开辟一个辅助数组并清零

13. int hash[26] = {0};

14.

15. // num为辅助数组中元素个数

16. int num = 0;

17.

18. // 扫描短字符串

19. for (int j = 0; j < str2.length(); j++)

20. {

21. // 将字符转换成对应辅助数组中的索引

22. int index = str1[j] - 'A';

23.

24. // 如果辅助数组中该索引对应元素为0，则置1，且num++;

25. if (hash[index] == 0)

26. {

27. hash[index] = 1;

28. num++;

29. }

30. }

31.

32. // 扫描长字符串

33. for (int k = 0; k < str1.length(); k++)

34. {

35. int index = str1[k] - 'A';

36.

37. // 如果辅助数组中该索引对应元素为1，则num--;为零的话，不作处理（不写语句）。

38. if(hash[index] ==1)

39. {

40. hash[index] = 0;

41. num--;

42. if(num == 0) //m==0，即退出循环。

43. break;

44. }

45. }

46.

47. // num为0说明长字符串包含短字符串内所有字符

48. if (num == 0)

49. cout << "true" << endl;

50. else

51. cout << "false" << endl;

52. return 0;

53. }

2.2、O（n+m）的数组存储方法

    有两个字符串short_str和long_str。
    第一步：你标记short_str中有哪些字符，在store数组中标记为true。(store数组起一个映射的作用，如果有A，则将第1个单元标记true，如果有B,则将第2个单元标记true，... 如果有Z, 则将第26个单元标记true）
    第二步：遍历long_str，如果long_str中的字符包括short_str中的字符则将store数组中对应位置标记为false。(如果有A，则将第1个单元标记false，如果有B,则将第2个单元标记false，... 如果有Z, 则将第26个单元标记false)，如果没有，则不作处理。
    第三步：此后，遍历store数组，如果所有的元素都是false，也就说明store_str中字符都包含在long_str内，输出true。否则，输出false。

    举个简单的例子好了，如abcd，abcdefg俩个字符串，
    1、先遍历短字符串abcd，在store数组中想对应的abcd的位置上的单元元素置为true，
    2、然后遍历abcdefg，在store数组中相应的abcd位置上，发现已经有了abcd，则前4个的单元元素都置为false，当我们已经遍历了4个元素，等于了短字符串abcd的4个数目，所以，满足条件，退出。
    （不然，继续遍历的话，我们会发现efg在store数组中没有元素，不作处理。最后，自然，就会发现store数组中的元素单元都是false的。）
    3、遍历store数组，发现所有的元素都已被置为false，所以程序输出true。

其实，这个思路和上一节中，O（n+m）的hashtable的方法代码，原理是完全一致的，且本质上都采用的数组存储（hash表也是一个数组），但我并不认为此思路多此一举，所以仍然贴出来。ok，代码如下：

1. //copyright@ 2011 Hession

2. //July、updated，2011.04.23.

3. #include<iostream>

4. #include<string.h>

5. using namespace std;

7. int main()

8. {

9. char long_ch[]="ABCDEFGHLMNOPQRS";

10. char short_ch[]="DEFGHXLMNOPQ";

11. int i;

12. bool store[58];

13. memset(store,false,58);

14.

15. //前两个是遍历两个字符串, 后面一个是遍历数组

16. for(i=0;i<sizeof(short_ch)-1;i++)

17. store[short_ch[i]-65]=true;

18.

19. for(i=0;i<sizeof(long_ch)-1;i++)

20. {

21. if(store[long_ch[i]-65]!=false)

22. store[long_ch[i]-65]=false;

23. }

24. for(i=0;i<58;i++)

25. {

26. if(store[i]!=false)

27. {

28. cout<<"short_ch is not in long_ch"<<endl;

29. break;

30. }

31. if(i==57)

32. cout<<"short_ch is in long_ch"<<endl;

33. }

34.

35. return 0;

36. }

jtlyuan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符串是否包含问题

转载于：http://blog.csdn.net/v_july_v/article/details/6347454第一节、一道俩个字符串是否包含的问题 1.1、O（n*m）的轮询方法 1.2、O(mlogm)+O(nlogn)+O(m+n)的排序方法 1.3、O（n+m）的计数排序方法第二节 2.1、O（n+m）的hashtable的方法 2.2、O（n+
复制链接

扫一扫