【20101106】动态规划训练:字串距离

8.1    字串距离  

源程序名            blast.???(pas, c, cpp)

可执行文件名        blast.exe

输入文件名          blast.in

输出文件名          blast.out

【问题描述】

       设有字符串X,我们称在X的头尾及中间插入任意多个空格后构成的新字符串为X的扩展串,如字符串X为”abcbcd”,则字符串“abcb□cd”,“□a□bcbcd□”和“abcb□cd□”都是X的扩展串,这里“□”代表空格字符。

       如果A1是字符串A的扩展串,B1是字符串B的扩展串,A1与B1具有相同的长度,那么我扪定义字符串A1与B1的距离为相应位置上的字符的距离总和,而两个非空格字符的距离定义为它们的ASCII码的差的绝对值,而空格字符与其他任意字符之间的距离为已知的定值K,空格字符与空格字符的距离为0。在字符串A、B的所有扩展串中,必定存在两个等长的扩展串A1、B1,使得A1与B1之间的距离达到最小,我们将这一距离定义为字符串A、B的距离。

       请你写一个程序,求出字符串A、B的距离。

【输入】

       输入文件第一行为字符串A,第二行为字符串B。A、B均由小写字母组成且长度均不超过2000。第三行为一个整数K(1≤K≤100),表示空格与其他字符的距离。

【输出】

       输出文件仅一行包含一个整数,表示所求得字符串A、B的距离。

【样例】

       blast.in                                       blast.out

       cmc                                           10

       snmn

       2

【算法分析】

    字符串A和B的扩展串最大长度是A和B的长度之和。如字符串A为“abcbd”,字符串B为“bbcd”,它们的长度分别是la=5、lb=4,则它们的扩展串长度最大值为LA+LB=9,即A的扩展串的5个字符分别对应B的扩展串中的5个空格,相应B的扩展串的4个字符对应A的扩展串中的4个空格。例如下面是两个字符串的长度为9的扩展串:

    a□b c□b□d□

    □b□□b□c□d

    而A和B的最短扩展串长度为la与lb的较大者,下面是A和B的长度最短的扩展串:

    a b cbd

    b□bcd

    因此,两个字符串的等长扩展串的数量是非常大的,寻找最佳“匹配”(对应位置字符距离和最小)的任务十分繁重,用穷举法无法忍受,何况本题字符串长度达到2000,巨大的数据规模,势必启发我们必须寻求更有效的方法:动态规划。

    记<A1, A2, …, Ai>为A串中A1到Ai的一个扩展串,<B1,B2, …, Bj>为B串中B1到Bj的一个扩展串。这两个扩展串形成最佳匹配的条件是(1)长度一样;(2)对应位置字符距离之和最小。

    首先分析扩展串<A1, A2, …, Ai>与扩展串<B1, B2, …, Bj>长度一样的构造方法。扩展串<A1,A2, …, Ai>与扩展串<B1, B2, …, Bj>可以从下列三种情况扩张成等长:

    (1)<A1, A2, …, Ai>与<B1, B2, …, Bj-1>为两个等长的扩展串,则在<A1, A2, …, Ai>后加一空格,<B1, B2, …, Bj-1>加字符Bj

    (2)<A1, A2, …, Ai-1>与<B1, B2, …, Bj>为两个等长的扩展串,则在<A1,A2, …, Ai-1>添加字符Ai,在<B1, B2, …, Bj>后加一空格;

    (3)<A1, A2, …, Ai-1>与<B1, B2, …, Bj-1>为两个等长的扩展串,则在<A1, A2, …, Ai-1>后添加字符Ai,在<B1,B2, …, Bj-1>后添加字符Bj

    其次,如何使扩展成等长的这两个扩展串为最佳匹配,即对应位置字符距离之和最小,其前提是上述三种扩展方法中,被扩展的三对等长的扩展串都应该是最佳匹配,以这三种扩展方法形成的等长扩展串(A1, A2, …, Ai>和<B1, B2, …, Bj>也有三种不同情形,其中对应位置字符距离之和最小的是最佳匹配。

    为了能量化上述的构造过程,引入记号g[i, j]为字符串A的子串A1, A2, …, Ai与字符串B的子串B1, B2, …, Bj的距离,也就是扩展串<A1, A2, …, Ai>与扩展串<B1, B2, …, Bj>是一个最佳匹配。则有下列状态转移方程:

    g[i, j]=Min{g[i-1, j]+k, g[i,j-1]+k, g[i-1, j-1]+}  0≤i≤La  0≤j≤Lb

       其中,k位字符与字符之间的距离;为字符ai与字符bi的距离。

       初始值:g[0, 0]=0    g[0, j]=j·k  g[i, 0]=i·k

       综上所述,本题的主要算法如下:

       (1)数据结构

       var a, b:array[1..2000]of byte;    {以ASCII码表示的字符串}

       g:array[0..2000, 0..2000]oflongint;   {各阶段的匹配距离}

       (2)读入字符串A、B,转换为ASCII码

       la:=0;   lb:=0;

       whilenot(eoln(f)) do          {子串长度单元}

         begin                        {从文件中读入一行字符}

              read(f, c);

              inc(la);

              a[la]:=ord(c);

         end;

       readln(f);

       whilenot(eoln(f)) do

         begin

              read(f, c);

              inc(lb);

              b[lb]:=ord(c);

         end;

       readln(f);

       (3)根据状态转移方程求g[la, lb]

       g[0,0]:=0;

       fori:=1 to la do g[i, 0]:=k+g[i-1, 0];

       forj:=1 to lb do g[0, j]:=k+g[0, j-1];

       fori:=1 to la do

         for j:=1 to lb do

              begin

                g[i, j]:=k+g[i-1,j];

                temp:=g[i, j-1]+k;

                if g[i, j]>temp theng[i, j]:=temp;

                temp:=g[i-1,j-1]+abs(a[i]-b[j]);

                if g[i, j]>temp theng[i, j]:=temp;

              end;

       (4)输出

       writeln(f, g[la, lb]);


#include<cstdio>
#include<cstring>
#include<cmath>
#include<algorithm>

using namespace std;

const int maxn=2010;
char a[maxn];
char b[maxn];
int g[maxn][maxn]={0};//数组g储存状态
int k;

int main(void)
{
	freopen("in.txt","r",stdin);
	int a1,b1,up,low;

	scanf("%s",&a);
	scanf("%s",&b);
	scanf("%d",&k);
	a1=strlen(a),b1=strlen(b);
	up=a1+b1;
	low=max(a1,b1);
	
	g[0][0]=0;
	for(int i=1;i<=a1;i++)	g[i][0]=k+g[i-1][0];
	for(int i=1;i<=b1;i++)	g[0][i]=k+g[0][i-1];

	int temp;
	for(int i=1;i<=a1;i++)
	{
		for(int j=1;j<=b1;j++)
		{
			g[i][j]=k+g[i-1][j];
			temp=g[i][j-1]+k;
			if(g[i][j]>temp)	g[i][j]=temp;
			temp=g[i-1][j-1]+abs(a[i-1]-b[j-1]);
			if(g[i][j]>temp)	g[i][j]=temp;
	//		printf("%d ",g[i][j]);
		}
//		printf("\n");
	}
	printf("%d\n",g[a1][b1]);
	
	return 0;
}
/*
	A1,B1具有相同的长度 相应位置上的距离
	空格和非空格之间的差为K
	可以转化为相互对应问题
	A1与B1之间的字符相互对应
	a[i][j]表示A1的前i个字符与B1的前j个字符对应时的最小距离和
	则a[i][j]=
	{
		a[i][j]=min(a[i][j-1]+k,a[i][j])//A1失对应,合成空格对应B1
		a[i][j]=min(a[i-1][j]+k,a[i][j])//B1失去对应
		a[i][j]=min(a[i][j],a[i-1][j-1]+abs(A1[i]-B1[j]))//A1、B1和对
		a[i][j]的取值即为四个状态的最小值
		当i==j&&i、j的长度均不小于字符串长度时
	}
	关键的问题在于如何表示A1、B1具有相同长度这个状态
*/


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值