【编程题】(满分27分)
脱氧核糖核酸即常说的DNA,是一类带有遗传信息的生物大分子。它由4种主要的脱氧核苷酸(dAMP、dGMP、dCMT和dTMP)通过磷酸二酯键连接而成。这4种核苷酸可以分别记为:A、G、C、T。
DNA携带的遗传信息可以用形如:AGGTCGACTCCA… 的串来表示。DNA在转录复制的过程中可能会发生随机的偏差,这才最终造就了生物的多样性。
为了简化问题,我们假设,DNA在复制的时候可能出现的偏差是(理论上,对每个碱基被复制时,都可能出现偏差):
1. 漏掉某个脱氧核苷酸。例如把 AGGT 复制成为:AGT
2. 错码,例如把 AGGT 复制成了:AGCT
3. 重码,例如把 AGGT 复制成了:AAGGT
如果某DNA串a,最少要经过 n 次出错,才能变为DNA串b,则称这两个DNA串的距离为 n。
例如:AGGTCATATTCC 与 CGGTCATATTC 的距离为 2
你的任务是:编写程序,找到两个DNA串的距离。
【输入、输出格式要求】
用户先输入整数n(n<100),表示接下来有2n行数据。
接下来输入的2n行每2行表示一组要比对的DNA。(每行数据长度<10000)
程序则输出n行,表示这n组DNA的距离。
例如:用户输入:
3
AGCTAAGGCCTT
AGCTAAGGCCT
AGCTAAGGCCTT
AGGCTAAGGCCTT
AGCTAAGGCCTT
AGCTTAAGGCTT
则程序应输出:
1
1
2
经典的字符串编辑距离问题
具体可看 http://www.geeksforgeeks.org/dynamic-programming-set-5-edit-distance/
同时还有练习 http://www.practice.geeksforgeeks.org/problem-page.php?pid=164
下面简要说明
DP[i][j]表示 s0[1…i] 和 s1[1…j]的最小编辑距离
注意这里表述的字符串下标从1开始 但是代码中的字符串下标从0开始
那么如果s0[i] == s1[j] 那么 dp[i][j] = dp[i-1][j-1]
如果不想等 那么就可以用上面的三种方法
1.增 先让s0[1…i]和 s1[1…j-1]相同, 然后 s0[1…i]再加上s1[j],这样就s0[1…i]和s2[1…j]相同了
2.删 先让s0[1…i-1]和 s1[1…j]相同 然后删掉s0[i]
3.改 先让s0[1…i-1]和 s1[1…j-1]相同 然后修改s0[i]
这样就可以的到状态转移方程
#include <bits/stdc++.h>
using namespace std;
void solve()
{
string s[2];
cin >> s[0] >> s[1];
int n = s[0].size(), m = s[1].size();
vector< vector<int> > dp;
dp.resize(n + 1);
for (int i = 0; i <= n; i++) {
dp[i].resize(m + 1);
for (int j = 0; j <= m; j++) {
if (i == 0) dp[i][j] = j; else
if (j == 0) dp[i][j] = i; else
if (s[0