LeetCode之Longest Substring Without Repeating Characters

最新推荐文章于 2021-12-03 15:58:56 发布

wangqisen

最新推荐文章于 2021-12-03 15:58:56 发布

阅读量589

点赞数

分类专栏： LeetCode

本文链接：https://blog.csdn.net/wangqisen/article/details/12842813

版权

LeetCode 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Longest Substring Without Repeating Characters

AC Rate: 1774/7414

My Submissions

Given a string, find the length of the longest substring without repeating characters. For example, the longest substring without repeating letters for "abcabcbb" is "abc", which the length is 3. For "bbbbb" the longest substring is "b", with the length of 1.

转自：http://blog.csdn.net/allen_fan_01/article/details/9034163

基本算法使用Hash

要求子串中的字符不能重复，判重问题首先想到的就是hash，寻找满足要求的子串，最直接的方法就是遍历每个字符起始的子串，辅助hash，寻求最长的不重复子串，由于要遍历每个子串故复杂度为O(n^2)，n为字符串的长度，辅助的空间为常数hash[256]。代码如下：

 
     /* 最长不重复子串 设串不超过30 
  * 我们记为 LNRS 
  */  
 int maxlen;  
 int maxindex;  
 void output(char * arr);  
 /* LNRS 基本算法 hash */  
 char visit[256];  
 void LNRS_hash(char * arr, int size)  
 {  
     for(int i = 0; i < size; ++i)  
     {  
         memset(visit,0,sizeof(visit));  
         visit[arr[i]] = 1;  
         for(int j = i+1; j < size; ++j)  
         {  
             if(visit[arr[j]] == 0)  
             {  
                 visit[arr[j]] = 1;  
             }else  
             {  
                 if(j-i > maxlen)  
                 {  
                     maxlen = j - i;  
                     maxindex = i;  
                 }  
                 break;  
             }  
         }  
     }  
     output(arr);  
 }  
 
   

DP方案

前面刚刚讨论过最长递增子序列的问题，咋一想就觉得二者有点类似，何不向DP方面想一下，为什么说二者类似，在LIS问题中，对于当前的元素，要么是与前面的LIS构成新的最长递增子序列，要么就是与前面稍短的子序列构成新的子序列或单独构成新子序列；

同理，对于最长不重复子串，某个当前的字符，如果它与前面的最长不重复子串中的字符没有重复，那么就可以以它为结尾构成新的最长子串；如果有重复，那么就与某个稍短的子串构成新的子串或者单独成一个新子串。

举个例子：例如字符串“abcdeab”，第二个字符a之前的最长不重复子串是“abcde”，a与最长子串中的字符有重复，但是它与稍短的“bcde”串没有重复，于是它可以与其构成一个新的子串，之前的最长不重复子串“abcde”结束；

再看一个例子：字符串“abcb”，跟前面类似，最长串“abc”结束，第二个字符b与稍短的串“c”构成新的串；

这两个例子，可以看出些眉目：当一个最长子串结束时（即遇到重复的字符），新的子串的长度是与（第一个重复的字符）的下标有关的。

于是类似LIS，对于每个当前的元素，我们“回头”去查询是否有与之重复的，如没有，则最长不重复子串长度+1，如有，则是与第一个重复的字符之后的串构成新的最长不重复子串，新串的长度便是当前元素下标与重复元素下标之差。

于是我们得到O(N^2)的DP方案，我们可以与LIS的DP方案进行对比，是一个道理的。代码如下：

 
     /* LNRS dp */  
 int dp[30];  
 void LNRS_dp(char * arr, int size)  
 {  
     int i, j;  
     maxlen = maxindex = 0;  
     dp[0] = 1;  
     for(i = 1; i < size; ++i)  
     {  
         for(j = i-1; j >= 0; --j)  
         {  
             if(arr[j] == arr[i])  
             {  
                 dp[i] = i - j;  
                 break;  
             }  
         }  
         if(j == -1)  
         {  
             dp[i] = dp[i-1] + 1;  
         }  
         if(dp[i] > maxlen)  
         {  
             maxlen = dp[i];  
             maxindex = i + 1 - maxlen;  
         }  
     }  
     output(arr);  
 }  
 
   

DP + Hash方案

上面的DP方案是O(n^2)的，之所以是n^2，是因为“回头”去寻找重复元素的位置了，受启发于最初的Hash思路，我们可以用hash记录元素是否出现过，我们当然也可以用hash记录元素出现过的下标，既然这样，在DP方案中，我们何不hash记录重复元素的位置，这样就不必“回头”了，而时间复杂度必然降为O(N)，只不过需要一个辅助的常数空间visit[256]，典型的空间换时间。

代码如下：这样遍历一遍便可以找到最长不重复子串

 
     /* LNRS dp + hash 记录下标 */  
 void LNRS_dp_hash(char * arr, int size)  
 {  
     memset(visit, -1, sizeof visit); //visit数组是-1的时候代表这个字符没有在集合中  
     memset(dp, 0, sizeof dp);  
     maxlen = maxindex = 0;  
     dp[0] = 1;  
     visit[arr[0]] = 0;  
     for(int i = 1; i < size; ++i)  
     {  
         if(visit[arr[i]] == -1) //表示arr[i]这个字符以前不存在  
         {  
             dp[i] = dp[i-1] + 1;  
             visit[arr[i]] = i; /* 记录字符下标 */  
         }else  
         {  
             dp[i] = i - visit[arr[i]];  
         }  
         if(dp[i] > maxlen)  
         {  
             maxlen = dp[i];  
             maxindex = i + 1 - maxlen;  
         }  
     }  
     output(arr);  
 }  
 
   

DP + Hash优化方案

写到这里，还是有些别扭，因为辅助的空间多了，是不是还能优化，仔细看DP最优子问题解的更新方程：

1	`dp[i] = dp[i-1] + 1;`

dp[i-1]不就是更新dp[i]当前的最优解么？这与最大子数组和问题的优化几乎同出一辙，我们不需要O(n)的辅助空间去存储子问题的最优解，而只需O(1)的空间就可以了，至此，我们找到了时间复杂度O(N)，辅助空间为O(1)（一个额外变量与256大小的散列表）的算法，代码如下

 
     /* LNRS dp + hash 优化 */  
   
 void LNRS_dp_hash_impro(char * arr, int size)  
   
 {  
     memset(visit, -1, sizeof visit);  
     maxlen = maxindex = 0;  
     visit[arr[0]] = 0;  
     int curlen = 1;  
     for(int i = 1; i < size; ++i)  
     {  
         if(visit[arr[i]] == -1)  
         {  
             ++curlen;  
             visit[arr[i]] = i; /* 记录字符下标 */  
         }else  
         {  
             curlen = i - visit[arr[i]];  
         }  
         if(curlen > maxlen)  
         {  
             maxlen = curlen;  
             maxindex = i + 1 - maxlen;  
         }  
     }  
     output(arr);  
 }