题目原文:
《算法概论》习题8.21
杂化测序。识别新基因的一种实验方法会对该基因进行反复检测,以判断其中包含那些k-串(长度为k的子串)。然后基于它们重组整个基因序列。我们可以将其描述为一个组合问题。对于任意字符串x(DNA序列),记F(x)为其所有k-串的几何的超集。特别地,F(x)共有|x|-k+1个元素。
重组问题是这样的:给定一个长度为k的字符串组成的多样集,求x使得F(x)恰为该集。
(a)证明重组问题可以归约为Rudrata路径问题
(b)证明重组问题可以归约为Euler路径问题
(a)根据题意可知,给定若干个等长的字符串(可重复),求出以它们为子串的字符串(重复的子串在输入中有几个就要在这个字符串中出现几次)。进行以下构造:每个子串对应一个一个节点,如果子串a的前k-1个字符和子串b的后k-1个字符相同,则增加一条由b指向a的边,从而构成一个有向图G设共有n个子串,这个构造过程可在O(n2)复杂度操作内完成。图G的一条Rudrata路径包含每一个子串,根据构造时弧的定义,将路径中顶点对应的子串重叠地写出就是一个符合条件的字符串x。综上,重组问题可以归约为Rudrata路径问题。
(b)进行以下构造:在有向图G中,所有长为k-1的字符串对应一个顶点,对于两个长为k-1的字符串a,b,如果输入中存在子串前k-1个字符组成a,后k-1个字符组成b,则在G中添加弧(a,b)。则图G邻接的弧x的后k-1个字符与弧y的前k-1个字符相同。所以G的一条Euler路径包含的弧对应的子串按顺序重叠地写出就是符合条件的字符串x。综上,重组问题可以归约为Euler路径问题。