2021年末PNAS发表了一篇名为“AnchorWave: Sensitive alignment of genomes with high sequence diversity, extensive structural polymorphism, and whole-genome duplication”的研究论文。文章中介绍了AnchorWave它使用蛋白编码基因等保守序列作为锚定位点,设计了一个最长路径算法分析两个基因组的共线性区域。使用目前最快的全局序列比对算法WFA设计了一个2-piece affine gap cost的比对策略,并通过WFA对每个锚定位点区和锚定位点间区进行单碱基分辨率的序列比对,进而获得每个共线性区域的序列比对和全基因组水平的序列比对。
提前下载好参考基因组的fasta序列和gff注释文件,查询基因组的fasta序列文件。
- 在参考基因组上识别并提取所有保守序例如(外显子或蛋白编码基因)作为锚点,之后分别比对到参考基因组和查询基因组上。
- 利用第一得到的信息进行格式转化并作图判断是否存在染色体上倒位,易位和全基因组加倍事件的存在,以便选择不同的命令genoAli或proali。
- 对于比较长的锚点间区,我们通过局部比对的算法识别新的锚点。
- 我们使用2-piece affine gap cost strategy进行全基因组比对并输出MAF格式的文件。