gatk过滤_GATK使用方法详解(原始数据的处理)

最新推荐文章于 2024-07-29 13:46:30 发布

和风木雨

最新推荐文章于 2024-07-29 13:46:30 发布

阅读量633

点赞数

文章标签： gatk过滤

本文链接：https://blog.csdn.net/weixin_30072453/article/details/112818034

版权

fastq

文件进行过滤和比对(

mapping

)

对于

Illumina

下机数据推荐使用

bwa

进行

mapping

。

Bwa

比对步骤大致如下：

(

)对参考基因组构建索引：

例子：

bwa index -a bwtsw hg19.fa

。最后生成文件：

hg19.fa.amb

、

hg19.fa.ann

、

hg19.fa.bwt

、

hg19.fa.pac

和

hg19.fa.sa

。

构建索引时需要注意的问题：

bwa

构建索引有两种算法，两种算法都是基于

BWT

的，这

两种算法通过参数

-a is

和

-a bwtsw

进行选择。其中

-a bwtsw

对于短的参考序列是不工作的，

必须要大于等于

10Mb

；

-a is

是默认参数，这个参数不适用于大的参考序列，必须要小于等于

。

(

)寻找输入

reads

文件的

坐标。

对于

pair end

数据，每个

reads

文件单独做运算，

single end

数据就不用说了，只有一

个文件。

例子：

pair end

：

bwa aln hg19.fa read1.fq.gz -l 30 -k 2 -t 4 -I > read1.fq.gz.sai

bwa aln hg19.fa read2.fq.gz -l 30 -k 2 -t 4 -I > read2.fq.gz.sai

single end

：

bwa aln hg19.fa read.fq.gz -l 30 -k 2 -t 4 -I > read.fq.gz.sai

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

和风木雨

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

gatk过滤_快速入门GATK | Public Library of Bioinformatics

weixin_42394257的博客

12-31

840

GATK，全称是Genome Anlysis Toolkit，顾名思义，是一套用于分析基因组的工具箱。主要功能是寻找变异位点和基因分型，但是实际上功能超多，导致初学者都不知道从何学习GATK。最近因为mapping-by-sequencing要寻找variant，所以接触了GATK。我相信很多人第一眼看到GATK是茫然的，因为它的功能实在是太多了，都不知道从何开始。这里就说下我是如何在一脸茫然的情...

gatk过滤_vcf文件过滤

weixin_39950824的博客

12-31

1379

1：参考文献：Li H. Towards better understanding of artifacts in variant callingfrom high-coverage samples[J]. Bioinformatics, 2014:btu356.2：针对GATK的call SNP有UnifiedGenotyper与HaplotypeCaller。现在基本上HaplotypeCal...

参与评论您还未登录，请先登录后发表或查看评论

GATK使用方法详细介绍

07-31

GATK软件使用方法详细描述，好的资源不容错过！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！

RLS-RTMDNet源码运行

qq_33890822的博客

10-24

236

RLS-RTMDNet源码运行 (pytorch1.2) pip install -U torchvision==0.4.0 生成pkl文件时参数-1改成1

gatk的参数和用法

m0_58052042的博客

07-29

310

GATK（Genome Analysis Toolkit）是一个强大的软件工具集，用于分析高通量测序数据。它由Broad Institute开发，广泛应用于基因组变异发现、基因表达分析和变异注释等任务。GATK的工具通常以命令行形式运行，具有大量的参数来定制分析流程。下面是一些GATK工具的用法和常用参数，但请注意，这里只列出了部分工具和参数。GATK不断更新，因此请参考官方文档以获取最新信息。

GATK使用方法详解（原始数据的处理）

whiffen_cann的专栏

02-22

1万+

转自：https://www.plob.org/article/7009.html 1. 对原始下机fastq文件进行过滤和比对（mapping）对于Illumina下机数据推荐使用bwa进行mapping。 Bwa比对步骤大致如下：（1）对参考基因组构建索引：例子：bwa index -a bwtsw hg19.fa。最后生成文件：hg19.fa.amb、hg19.fa.an

VCF格式详解

hs6605015的博客

10-06

4851

VCF格式详解 CHROM(chromosome):染色体 POS - position:参考基因组variant碱基位置，如果是INDEL（插入缺失），位置是INDEL的第一个碱基位置 ID - identifier: variant的ID。比如在dbSNP中有该SNP的id，则会在此行给出；若没有，则用’.'表示其为一个novel variant。 REF - reference base(s):参考碱基，染色体上面的碱基，必须是ATCGN中的一个，N表示不确定碱基 ALT - alternate ba

gatk过滤_GATK--使用转载

weixin_42486337的博客

12-31

2048

http://blog.sciencenet.cn/blog-1469385-819498.html文章目录一.准备工作二.流程概览三.流程首先说说GATK可以做什么。它主要用于从sequencing 数据中进行variant calling，包括SNP、INDEL。比如现在风行的exome sequencing找variant，一般通过BWA+GATK的pipeline进行数据分析。要run G...

gatk过滤_GATK使用方法详解（相关参数和参考文件说明）

weixin_28884205的博客

12-31

2657

VariantRecalibrator参数详解VariantRecalibrator-badLodCutoff 当LOD得分低于这个值的时候，就用于构建高斯混合模型的bad variants。默认值是-5。-maxNumTrainingData 构建高斯模型过程中，用于训练的最大位点数目。如果超过这个数目，将被随机删除。默认值是2500000。-minNumBad 构建高斯模型的bad varia...

gatk过滤_详解GATK突变硬过滤 | 群体遗传专题

weixin_39563827的博客

12-31

515

对于联川的重测序组来说，每天都会和许许多多的SNP打交道(什么是SNP？)，经手处理过的SNP位点何止上亿。而在他们手中，GATK(Genome analysis toolkit)是一柄锋利无比的雕刻刀，原始数据经过GATK的处理之后才能去伪存真，显出本色，进入后续的挖掘过程。GATK(不是GANK也不是GTA！)这款软件是变异检测的常用软件，但是它不仅可以从比对信息中挖掘出大量的SNP和INDE...

GATK使用方法详解-plob最详尽说明书.doc

07-01

### GATK使用方法详解 #### 一、使用GATK前须知事项： 1. **数据类型**：GATK主要用于人类全基因组及外显子组测序数据分析，特别是基于Illumina平台的数据。虽然它也支持其他平台如Ion Torrent的数据，但官方并未...

gatk-sv

03-19

GATK-SV 用于Illumina短读全基因组测序（WGS）数据的结构变异发现管道。目录原始呼叫者和证据收集批量质量控制 -gCNV模型创建批量证据合并，BAF生成和深度调用者网站集群网站指标过滤跨批次站点合并基因分型基因型优化（可选）跨批次集成，复杂事件解决和VCF清理下游过滤注释质量控制和可视化附加模块-Mosaic和de novo 部署和执行：一个帐户。支持（WDL）的流执行系统，可以：（v36或更高版本）。强烈建议使用专用服务器。或（请注意，此平台尚不支持预配置的GATK-SV工作流程）推荐：。由于许可限制，我们无法为此算法提供公共docker映像或参考面板VCF。推荐：用于与专用Cromwell服务器进行交互的。推荐：用于验证WDL / json文件的。数据： Illumina短读全基因组CRAM或BAM，与带有hg38

aozan:Illumina HiSeq的自动化后测序数据处理管道

05-28

本文将详细介绍Aozan的功能、使用方法以及其在HiSeq数据处理中的应用。 Aozan的核心价值在于自动化。它能够自动完成数据传输、多路分解和质量控制等关键步骤。数据传输是指将从测序仪获取的原始数据安全快速地转移...

生信学习笔记：利用GATK call SNP

ccArtermices的专栏

09-19

1万+

生信学习笔记：利用GATK call SNP SNP是指在基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入。SNP在基因组中分布相当广泛，近来的研究表明在很多物种基因组中每300bp就出现一次。大量存在的SNP位点，使人们有机会发现与各种疾病，包括肿瘤相关的基因组突变。既然SNP那么广泛存在，获得SNP就变成一项重要的任务。在经历了样本收集、测序、质控和mapping后，我们输出了bam格式...

一文详解BQSR-碱基质量矫正原理和实战

weixin_49533584的博客

03-15

1654

hello，大家好，今天为大家带来关于碱基质量矫正工具BQSR的超详细原理、安装及应用教程。

用GATK进行二代测序数据 SNP Calling 流程：（四）变异过滤