基因组不同区域在进化上的速率是不同的。在编码区的碱基突变可能会导致氨基酸性质发生改变导致后代死亡,以及插入缺失导致开放读码框(ORF)变化,因此编码区更有可能是同义的点突变。但是对于非编码区,比如说内含子或者是基因间隔区,突变对生物体的生存影响不大,因此更容易出现插入、缺失、倒置和重复这些变异。
在1940~1950年期间,Barbara McClintock 在玉米中发现了转座子现象,并证明许多基因组重排是因为转座子在基因组上移动引起。
下图表明基因组原本只有两个转座子,由于姊妹染色单体之间的Tn插入重拍最后形成了三个转座子。
基因组上的转座子不需要完全一致就能够发生重拍,因此无法使用传统的局部联配找到序列中的多个重复,因为它只会找到最优的联配。比如说"AAAATTTTT"和"TTTTTAAAA"的局部最优联配只会得到
001 1 TTTTT 5
|||||
002 5 TTTTT 9
为了找到序列中AAAA部分的联配,我们就需要用到次最优联配技术,它能获取不止一个的不同位点局部联配,因此还能在上面的基础上得到如下的联配
001 6 AAAA 9
||||
002 1 AAAA 4
实现亚最优联配的工具为FASTA/Lalign
,输出结果和EMBOSS的Needle
和Water
类似
问题: 给定两条DNA序列(A,B),两者存在32~40 bp的不精确重复序列C。使用Lalign的网页工具 ,请给出长度在32~40之间的C序列分别在A和B里出现了几次
学会看结果图就行了。