之前的我发现基因组不仅存在ATCG和表示Gap的N,还有一些模糊序列,用来表示两种或两种以上的碱基。
对于这些序列,我有以下几个问题:
-
这些非ATCG的序列在基因组的哪些位置?
-
这些非ATCG的序列长度分别是多少?
-
基因组上存在多少个gap序列?
解决这个问题通常有以下两个思路:
-
通过检索,找到能够回答以上问题的工具
-
自己编写脚本,写一段代码进行分析。
而这里,我会用一个大家都想不到的工具来解答这些问题,这个工具就是我们经常用于二代序列回帖的BWA。
通常而言,我们使用bwa index建立索引,建立完索引之后,我们就直接用索引进行比对,而不会在乎索引文件。bwa index建立完索引之后,会得到5个文件,分别是amb, ann, bwt, pac,sa. 而amb就是我们所需的文件,amb是ambiguous的缩写,也就是模糊之意。