背景
作者是一个没有生信背景知识的程序员,近期对全外显子测序有些感兴趣,因此记录一下学习过程,和大家共同进步。
预备知识
WES基础知识
什么是基因
什么是DNA
二代测序基础知识
等位基因
软件安装
bwa
git clone https://github.com/lh3/bwa.git
cd bwa
make
由于bwa的makefile没有写intall的脚本,所以我们直接将编译的目录加入到环境变量中,
vim ~/.bashrc
export PATH=${PATH}:/usr/local/cuda/bin/:/home/fangl5/Downloads/bwa-0.7.17/
samtools
下载samtools-1.14.tar.bz2
解压后
./configure
make
sudo make install
java 11
sudo apt-get install openjdk-11-jdk
picard
wget https://github.com/broadinstitute/picard/releases/download/2.26.10/picard.jar
gatk
sudo apt-get install git-lfs
git clone https://github.com/broadinstitute/gatk.git
./gradlew bundle
将gatk加入到环境变量PATH中,和bwa中操作一致。
SOAPnuke
git clone https://github.com/BGI-flexlab/SOAPnuke.git
cd SOAPnuke
make
加入环境变量中
下载数据
hg38.ga
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
gatk参考文件
我直接将google cloud中文件夹下载下来了
gsutil -m cp -r \
"gs://genomics-public-data/resources/broad/hg38/v0/" \
.
gatk-tutotial 相关数据 google cloud地址
genomics-public-data
annovar 数据下载
http://hgdownload.cse.ucsc.edu/goldenpath/hg38/database/
实践fastq to vcf
# 大于2G的参考基因组要用参数-a bwtsw
# 约40min
bwa index -a bwtsw hg38.fa
java -jar ~/Downloads/picard.jar CreateSequenceDictionary R=./hg38.fa O=./hg38.dict
samtools faidx hg38.fa
gatk IndexFeatureFile -I ./Mills_and_1000G_gold_standard.indels.hg38.vcf
Q&A
核苷酸序列或氨基酸序列是什么?
WGS\WES\TS区别
http://www.genomesop.com/wp-content/uploads/2018/11/genomic_comparison3.png
参考资料
GATK4 流程分析- 从fastq到vcf
GATK_Discovery_Tutorial-Worksheet-AUS2016.pdf
基因组测序、外显子测序和靶向测序有什么样的区别,如何选择?
华大外显子测序
Exome sequencing data analysis for diagnosing a genetic disease
全外显子测序(WES)分析流程
使用fastp进行数据质控
GATK4 多个样本GenotypeGVCFs前用 CombineGVCFs还是GenomicsDBImport
intel 2015 面向 GATK 最佳实践流水线部署的基础设施
家系分析软件汇总
WGS数据分析入门篇 碱基矿工
全外显子测序(WES)分析流程 这一篇,用到了bed文件。
gatk spark加速
Whole-Genome-Sequencing
全外显子测序(wes)数据分析详细流程(小样本)
如何正确设置GATK VQSR的模型训练参数
https://blog.csdn.net/weixin_43217642/article/details/115291586