1.Gaea

Gaea([di:])是基于Hadoop并行计算框架开发的基因组重测序分析套件(图1)。目前,Gaea框架主要分为初级分析、变异检测和变异注释等三个部分(图1)。初级分析部分的输入是原始read文件(FASTQ格式或经gz压缩的FASTQ文件),输出是可供变异检测分析的比对文件(BAM格式)。初级分析部分包含read过滤、序列比对、比对结果去重、序列重比对、测序质量值校正等模块。变异检测部分的输入是初级分析部分处理后的比对结果文件(BAM格式),输出是变异检测结果文件(VCF格式)。变异检测部分包括Germline变异检测(SNVINDEL)和Somatic变异检测(CNVINDELSNV)等模块。变异注释部分的输入是变异检测结果文件(VCF格式),输出是变异的注释结果(GFF格式)。Gaea各功能模块描述参见表1Gaea是基于Hadoop并行计算的基因组重测序分析云平台,具备较快的数据分析速度。以人类64 XWGS数据为例,在天津超算部署的Gaea只需15个小时便能完成所有的分析过程。总之,Gaea提供了完整的基因组重测序分析流程,具备精度高、速度快、可扩展能力强、计算资源利用率高等特点。

100844475.png

1 Gaea框架

1. Gaea功能模块

功能

Gaea模块

对应软件

Sequencing Quality Control

GaeaQC

New algorithm

Alignment

GaeaAlignment

New algorithm

GaeaBWAStreaming

BWA 0.6.1

GaeaSOAPStreaming

SOAP 2.21

Duplicate Marking

GaeaMarkDuplicate

Picard 1.76

Realignment

GaeaRealignment

GATK 1.6 realignment

Base Quality Recalibration

GaeaRecalBaseQuality

GATK 1.6 base quality recalibration

Germline SNV Calling

GaeaSNP

New algorithm based on SOAPsnp 1.0.5

Germline INDEL Calling

GaeaINDEL

SAMtools 0.1.18

Somatic SNV Calling

GaeaSomaticSNV

VarScan 2

Somatic INDEL Calling

GaeaSomaticINDEL

VarScan 2

Somatic CNV Calling

GaeaSomaticCNV

VarScan 2

Variant Annotation

GaeaAnnotation

ANNOVAR 2013Apr 08

AnnTools 1.1

snpEff 3.2a


2.BGI大数据管理系统

数据-信息-知识金字塔架构是构建大数据管理平台的最佳范式。今后,对于基因组测序数据的解读必将是以数据库和知识库为基础的,而大数据管理平台正是解读的基础。

华大基因大数据管理平台遵循“数据-信息-知识”金字塔架构,如图2所示。其中,第一层是数据层,由iRODS系统对大数据的进行存储管理;第二层是信息层,使用PostgreSQL数据库存储分析结果数据,包括变异信息和表型信息;第三层是知识层,通过数据挖掘从第二层中获取关于变异、疾病和药物相关的知识,并存储于知识库中;第四层是决策层,根据前三层的数据进行健康和临床应用方面的决策,例如疾病诊断、药物选择等。

100944851.png

2华大基因数据金字塔

BGI大数据管理平台研究内容包括:

1制定华大基因基因组学测序数据标准

2构建基于iRODS的基因组测序数据管理系统

3构建华大基因基础数据库BGI-DB

4构建华大基因数据仓库

5构建华大基因知识库

6推广华大基因数据库和数据仓库在数据分析流程中的使用