个人基因组比对及其变异分析

本文详细介绍了个人基因组的比对和变异分析过程,包括使用bwa建立索引,fastq文件比对,bcftools进行变异呼叫,以及利用SnpSift和dbsnp数据库进行注释。涉及到的工具有bwa, samtools, bcftools, SnpSift等,并附带相关命令和操作步骤。" 113661399,10294394,Python字典转带缩进的树形JSON字符串,"['Python', '数据处理', 'JSON']
摘要由CSDN通过智能技术生成

这里用到生物学软件有

1.bwa(主要用途a.建立参考基因组索引文件的。b.进行比对)类似的建立索引的软件有bowtie,hisat

http://sourceforge.net/projects/bio-bwa/files/

2.samtools(主要用途a.排序b.合并c.建立基因组index)

http://sourceforge.net/projects/samtools/files/samtools/

该软件需要编译安装

3.bcftools(主要用途:view命令来进行SNP和Indel calling,它是samtools中附加的软件)

4.snpEff (主要用途:a.添加标签b.标记dbSNP的ID号)

5.freebayes(主要用途:添加一些标签)

(以上软件需要配置环境变量,添加方法见这里)

一、基因组下载

下载参考基因组hg19,所在的网站如下:

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

下载至~/reference/genome/hg19/目录

下载过后解压,cat合并成hg19.fa一个文件

下载需要比对的个人基因组,这里我拿到的是韩国人个人基因组计划中编号为KPGP-00001的基因组,所在ftp站点:

ftp://biodisk.org/Release/KPGP/KPGP_Data_2016_Release_Candidate/WGS/KPGP-00001

下载至~/Data/KPGP-00001目录下

下载过后注意md5校验,md5sum + 文件名;


二、bwa软件建立索引

新建路径~/reference/index/bwa/,用以存放参考基因组的索引。

bwa index -a(STR BWT construction algorithm) bwtsw -p(STR prefix of the index [same as fasta name]) ~/reference/index/bwa/hg19 ~/reference/genome/hg19/hg19.fa 1>hg19.bwa.index.log 2>&1

因为运行时间较长,此命令最好在后台运行,(nohup time,加上time可以看见运行时间)


三、将fastq文件比对到hg19参考基因组

bwa mem(PE150测序比对模式) -t (INT number of threads) -M(mark shorter split hits as secondary 选择上一步建立好的参考基因组索引) ~/reference/index/bwa/hg19 KPGP-00001_R1.fq.gz KPGP-00001_R2.fq.gz 1>KPGP-00001.sam 2>KPGP-00001.bwa.log

若有多个fq文件,需要加for流程控制,得到多个sam文件。此命令在后台运行。

至此,我们用已经比对得到了sam格式比对结果文件,从sam文件中我们看到每条reads在基因组及染色体的位置

图一

若图片不清晰,可放大网页查看。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值