个人基因组比对及其变异分析

最新推荐文章于 2024-08-06 10:30:56 发布

Timothy飞

最新推荐文章于 2024-08-06 10:30:56 发布

阅读量9.2k

点赞数 2

分类专栏：生物信息学 linux

本文链接：https://blog.csdn.net/tim_st/article/details/78388271

版权

本文详细介绍了个人基因组的比对和变异分析过程，包括使用bwa建立索引，fastq文件比对，bcftools进行变异呼叫，以及利用SnpSift和dbsnp数据库进行注释。涉及到的工具有bwa, samtools, bcftools, SnpSift等，并附带相关命令和操作步骤。" 113661399,10294394,Python字典转带缩进的树形JSON字符串,"['Python', '数据处理', 'JSON']

摘要由CSDN通过智能技术生成

这里用到生物学软件有

1.bwa（主要用途a.建立参考基因组索引文件的。b.进行比对）类似的建立索引的软件有bowtie，hisat

http://sourceforge.net/projects/bio-bwa/files/

2.samtools（主要用途a.排序b.合并c.建立基因组index）

http://sourceforge.net/projects/samtools/files/samtools/

该软件需要编译安装

3.bcftools（主要用途：view命令来进行SNP和Indel calling，它是samtools中附加的软件）

4.snpEff （主要用途：a.添加标签b.标记dbSNP的ID号）

5.freebayes（主要用途：添加一些标签）

(以上软件需要配置环境变量，添加方法见这里)

一、基因组下载

下载参考基因组hg19，所在的网站如下：

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

下载至~/reference/genome/hg19/目录

下载过后解压，cat合并成hg19.fa一个文件

下载需要比对的个人基因组，这里我拿到的是韩国人个人基因组计划中编号为KPGP-00001的基因组，所在ftp站点：

ftp://biodisk.org/Release/KPGP/KPGP_Data_2016_Release_Candidate/WGS/KPGP-00001

下载至~/Data/KPGP-00001目录下

下载过后注意md5校验，md5sum + 文件名；

二、bwa软件建立索引

新建路径~/reference/index/bwa/，用以存放参考基因组的索引。

bwa index -a(STR BWT construction algorithm) bwtsw -p(STR prefix of the index [same as fasta name]) ~/reference/index/bwa/hg19 ~/reference/genome/hg19/hg19.fa 1>hg19.bwa.index.log 2>&1

因为运行时间较长，此命令最好在后台运行，(nohup time,加上time可以看见运行时间)

三、将fastq文件比对到hg19参考基因组

bwa mem(PE150测序比对模式) -t (INT number of threads) -M(mark shorter split hits as secondary 选择上一步建立好的参考基因组索引) ~/reference/index/bwa/hg19 KPGP-00001_R1.fq.gz KPGP-00001_R2.fq.gz 1>KPGP-00001.sam 2>KPGP-00001.bwa.log

若有多个fq文件，需要加for流程控制，得到多个sam文件。此命令在后台运行。

至此，我们用已经比对得到了sam格式比对结果文件，从sam文件中我们看到每条reads在基因组及染色体的位置