【字符串hash】DNA

最新推荐文章于 2024-05-07 09:59:59 发布

weixin_30609287

最新推荐文章于 2024-05-07 09:59:59 发布

阅读量261

点赞数

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/Osea/p/11568967.html

版权

DNA

题目描述

小X身为奆老，兴趣爱好广泛，他还非常喜欢研究DNA序列……
小X进行了一项关于DNA序列研究，发现人某条染色体上的一段DNA序列中连续的k个碱基组成的碱基序列与做题的AC率有关！于是他想研究一下这种关系。
现在给出一段DNA序列，请帮他求出这段DNA序列中所有连续k个碱基形成的碱基序列中，出现最多的一种的出现次数。

输入

第一行为一段DNA序列，保证DNA序列合法，即只含有A,G,C,T四种碱基；
第二行为一个正整数k，意义与题目描述相同。

输出

一行，一个正整数，为题目描述中所求答案。

样例输入

AAAAA
1

样例输出

提示

对于这段DNA序列，连续的1个碱基组成的碱基序列只有A，共出现5次，所以答案为5。

记DNA序列长度为n。
下面给出每组数据的范围和满足性质情况：

【题解】

　　看清楚题意，是连续k个，然后可以重叠的，直接字符串Hash搞即可.

 1 #include<bits/stdc++.h>
 2 using namespace std;
 3 const int N = 5e6+10;
 4 typedef unsigned long long ull;
 5 unordered_map < ull , int > Mp ;
 6 unordered_map < ull , int > Cnt ;
 7  
 8 ull h[N],p[N],base=131;
 9 char str[N];
10 ull get_hash( int L , int R){
11     return h[R] - h[L-1] * p[ R - L + 1 ];
12 }
13  
14 ull t[N];
15 int main()
16 {
17     int n,k;
18     scanf("%s%d",str+1,&k);
19     n = strlen(str+1);
20     p[0] = 1 ;
21     for( int i = 1 ; i <= n ; i++ ){
22         h[i] = h[i-1] * base + str[i] - 'A' + 1 ;
23         p[i] = p[i-1] * base ;
24         if( i >= k ){
25             ull tmp = get_hash( i-k+1 , i ) ;
26             Cnt[tmp] ++ ;
27         }
28     }
29     int ans = 0 ;
30     for( auto x : Cnt ){
31         ans = max( ans , x.second );
32     }
33     printf("%d\n",ans);
34     return 0 ;
35 }
36 /*
37 AAAAACCCCCGGGGGGGGTTTTTTTTTTTTTT
38 1
39 14
40  
41 */

转载于:https://www.cnblogs.com/Osea/p/11568967.html

weixin_30609287

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【字符串hash】DNA

DNA题目描述小X身为奆老，兴趣爱好广泛，他还非常喜欢研究DNA序列……小X进行了一项关于DNA序列研究，发现人某条染色体上的一段DNA序列中连续的k个碱基组成的碱基序列与做题的AC率有关！于是他想研究一下这种关系。现在给出一段DNA序列，请帮他求出这段DNA序列中所有连续k个碱基形成的碱基序列中，出现最多的一种的出现次数。输入第一行为一段DNA序列，保证...
复制链接

扫一扫