全外显子测序(WES)由入门到精通记录

背景

作者是一个没有生信背景知识的程序员,近期对全外显子测序有些感兴趣,因此记录一下学习过程,和大家共同进步。

预备知识

WES基础知识
什么是基因
什么是DNA
二代测序基础知识
等位基因

软件安装

bwa

git clone https://github.com/lh3/bwa.git
cd bwa
make

由于bwa的makefile没有写intall的脚本,所以我们直接将编译的目录加入到环境变量中,

vim ~/.bashrc
export PATH=${PATH}:/usr/local/cuda/bin/:/home/fangl5/Downloads/bwa-0.7.17/

samtools

下载samtools-1.14.tar.bz2
解压后

    ./configure
    make
    sudo make install

java 11

sudo apt-get install openjdk-11-jdk

picard

wget https://github.com/broadinstitute/picard/releases/download/2.26.10/picard.jar

gatk

sudo apt-get install git-lfs
git clone https://github.com/broadinstitute/gatk.git
./gradlew bundle

将gatk加入到环境变量PATH中,和bwa中操作一致。

SOAPnuke

git clone https://github.com/BGI-flexlab/SOAPnuke.git
cd SOAPnuke 
make

加入环境变量中

下载数据

hg38.ga

wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz

gatk参考文件

我直接将google cloud中文件夹下载下来了

gsutil -m cp -r \
  "gs://genomics-public-data/resources/broad/hg38/v0/" \
  .
gatk-tutotial 相关数据 google cloud地址
genomics-public-data
annovar 数据下载

http://hgdownload.cse.ucsc.edu/goldenpath/hg38/database/

实践fastq to vcf

# 大于2G的参考基因组要用参数-a bwtsw  
# 约40min
bwa index -a bwtsw hg38.fa
java -jar ~/Downloads/picard.jar CreateSequenceDictionary R=./hg38.fa O=./hg38.dict
samtools faidx hg38.fa
gatk IndexFeatureFile -I ./Mills_and_1000G_gold_standard.indels.hg38.vcf

https://app.terra.bio/#workspaces/help-gatk/GATK4-Germline-Preprocessing-VariantCalling-JointCalling/notebooks/launch/1-gatk-germline-variant-discovery-tutorial.ipynb

Q&A

核苷酸序列或氨基酸序列是什么?
WGS\WES\TS区别

http://www.genomesop.com/wp-content/uploads/2018/11/genomic_comparison3.png
WGS\WES\TS区别

参考资料

GATK4 流程分析- 从fastq到vcf
GATK_Discovery_Tutorial-Worksheet-AUS2016.pdf
基因组测序、外显子测序和靶向测序有什么样的区别,如何选择?
华大外显子测序
Exome sequencing data analysis for diagnosing a genetic disease
全外显子测序(WES)分析流程
使用fastp进行数据质控
GATK4 多个样本GenotypeGVCFs前用 CombineGVCFs还是GenomicsDBImport
intel 2015 面向 GATK 最佳实践流水线部署的基础设施
家系分析软件汇总
WGS数据分析入门篇 碱基矿工
全外显子测序(WES)分析流程 这一篇,用到了bed文件。
gatk spark加速

Whole-Genome-Sequencing
全外显子测序(wes)数据分析详细流程(小样本)
如何正确设置GATK VQSR的模型训练参数
https://blog.csdn.net/weixin_43217642/article/details/115291586

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值