gatk过滤_GATK使用方法详解(原始数据的处理)

fastq

文件进行过滤和比对(

mapping

)

对于

Illumina

下机数据推荐使用

bwa

进行

mapping

Bwa

比对步骤大致如下:

(

1

)对参考基因组构建索引:

例子:

bwa index -a bwtsw hg19.fa

。最后生成文件:

hg19.fa.amb

hg19.fa.ann

hg19.fa.bwt

hg19.fa.pac

hg19.fa.sa

构建索引时需要注意的问题:

bwa

构建索引有两种算法,两种算法都是基于

BWT

的,这

两种算法通过参数

-a is

-a bwtsw

进行选择。其中

-a bwtsw

对于短的参考序列是不工作的,

必须要大于等于

10Mb

-a is

是默认参数,这个参数不适用于大的参考序列,必须要小于等于

2G

(

2

)寻找输入

reads

文件的

SA

坐标。

对于

pair end

数据,每个

reads

文件单独做运算,

single end

数据就不用说了,只有一

个文件。

例子:

pair end

bwa aln hg19.fa read1.fq.gz -l 30 -k 2 -t 4 -I > read1.fq.gz.sai

bwa aln hg19.fa read2.fq.gz -l 30 -k 2 -t 4 -I > read2.fq.gz.sai

single end

bwa aln hg19.fa read.fq.gz -l 30 -k 2 -t 4 -I > read.fq.gz.sai

使用GATK(Genome Analysis Toolkit)的VariantFiltration工具从VCF文件中过滤掉杂合突变,可以按照以下步骤进行操作: 1. 安装和配置GATK:确保已经安装了GATK并正确配置了环境变量。 2. 准备VCF文件:将待过滤的VCF文件作为输入,并将其路径添加到GATK的输入参数中。 3. 创建过滤器配置文件:使用GATK的VariantFiltration工具创建一个过滤器配置文件。该文件将用于指定过滤规则和参数。 4. 运行VariantFiltration工具:在命令行中,使用GATK的VariantFiltration工具运行过滤器,并将过滤器配置文件和VCF文件作为输入参数。 以下是使用GATK VariantFiltration过滤VCF文件的中文步骤: 1. 打开命令行终端或控制台窗口。 2. 切换到GATK的安装目录。 3. 运行以下命令来创建过滤器配置文件(假设VCF文件名为input.vcf): ```bash gatk VariantFiltration -I input.vcf -O filtered_variants.xml ``` 这将生成一个名为filtered_variants.xml的过滤器配置文件。 4. 使用过滤器配置文件和VCF文件运行VariantFiltration工具: ```bash gatk VariantFiltration -I input.vcf -R filtered_variants.xml -O filtered_output.vcf ``` 这将根据过滤器配置文件中的规则和参数,从VCF文件中过滤掉杂合突变,并将结果保存到filtered_output.vcf文件中。 5. 查看过滤后的VCF文件:打开filtered_output.vcf文件,查看是否成功过滤掉了杂合突变。 请注意,上述步骤仅提供了一种使用GATK VariantFiltration的基本方法。具体过滤规则和参数可能需要根据你的数据和分析需求进行调整。GATK提供了丰富的过滤器选项,你可以根据需要进行自定义配置。可以参考GATK的官方文档以获取更多详细信息和指导。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值