**全外显子测序(Whole Exome Sequencing, WES)和全基因组测序(Whole Genome Sequencing, WGS)**是两种广泛应用于基因组研究和临床诊断的高通量测序技术。
它们各有特点和应用场景,以下是它们的主要区别:
1. 测序范围
-
全外显子测序(WES)
-
仅针对基因组中外显子区域(约占全基因组的1-2%),即能够编码蛋白质的部分进行测序。
-
目标区域约为30-50 Mb(百万碱基对)。
-
通常通过富集捕获的方法选择外显子区域进行测序。
-
-
全基因组测序(WGS)
-
涉及整个基因组的测序,包括编码区(外显子)、非编码区(内含子、调控区等)以及线粒体DNA。
-
覆盖范围约为3 Gb(十亿碱基对)。
-
2. 数据量和成本
-
WES
-
数据量较小,通常为5-10 Gb。
-
成本较低,适用于预算有限的研究或临床应用。
-
-
WGS
-
产生的数据量较大,通常为90-150 Gb。
-
成本较高,但随着技术进步,价格逐渐下降。
-
3. 检测能力
-
WES
-
专注于外显子区域,能有效检测与疾病相关的编码变异(如单核苷酸变异和小片段插入/缺失)。
-
对非编码区变异无检测能力,无法全面解析调控区变异或结构变异。
-
-
WGS
-
提供全面的基因组变异信息,包括编码区和非编码区的变异、拷贝数变异(CNV)、结构变异(如染色体易位、倒位)和重复序列变异。
-
适合于未知致病变异的全面探索。
-
4. 分析复杂性
-
WES
-
数据量小,分析较为简单,重点关注已知与疾病相关的基因区域。
-
生物信息学处理和存储需求较低。
-
-
WGS
-
数据量庞大,分析更复杂,需要更高效的计算资源。
-
结果解读难度更高,尤其是非编码区变异的功能预测和临床意义评估。
-
5. 应用场景
-
WES
-
疾病基因筛查: 适用于已知与编码区相关的单基因病研究或遗传病诊断。
-
快速诊断: 尤其适合明确的目标区域(外显子)的研究。
-
成本受限的项目: 在预算有限的情况下选择WES较为合理。
-
-
WGS
-
全基因组探索: 特别适用于寻找未知致病突变或复杂病变的研究。
-
癌症研究: 涵盖肿瘤特有的结构变异和非编码区调控突变。
-
进化研究: 提供全基因组范围的遗传信息,适合物种比较和群体遗传学。
-
6. 优缺点对比
特点 | WES | WGS |
---|---|---|
测序范围 | 外显子区域 | 全基因组 |
数据量 | 较小 | 较大 |
成本 | 较低 | 较高 |
检测范围 | 编码区变异 | 编码区和非编码区变异均可检测 |
适用场景 | 编码区相关疾病 | 全基因组突变分析 |
技术复杂性 | 较低 | 较高 |
总结
-
如果目标是寻找已知基因区域的突变或预算有限,WES是更合适的选择。
-
如果需要全面探索基因组变异,或研究非编码区和复杂结构变异,WGS更具优势。实际选择取决于研究目的、预算和数据分析能力。
以下是全外显子测序(WES)典型分析流程及实现代码示例。我们以常用的工具(如FastQC、BWA、GATK等)为例,提供脚本示范。请根据实际需求和环境配置调整代码。
全外显子测序(WES)分析流程
1. 数据质控
使用 FastQC 和 MultiQC 对原始数据进行质控。
# 运行FastQC
fastqc -t 4 sample_R1.fastq.gz sample_R2.fastq.gz -o ./fastqc_output/
# 运行MultiQC整合FastQC报告
multiqc ./fastqc_output/ -o ./multiqc_output/
2. 数据比对
使用 BWA 将测序数据比对到参考基因组。
# 创建索引(仅需一次)
bwa index reference.fasta
# 比对
bwa mem -t 8 reference.fasta sample_R1.fastq.gz sample_R2.fastq.gz > sample.sam
3. SAM/BAM 处理
将 SAM 文件转换为 BAM 文件,排序,并标记重复。
# 转换为BAM并排序
samtools view -bS sample.sam | samtools sort -o sample.sorted.bam
# 标记重复
gatk MarkDuplicates -I sample.sorted.bam -O sample.dedup.bam -M sample.metrics.txt
4. 外显子区域捕获
通过 BED 文件定义外显子区域,进行目标区域提取。
# 提取外显子区域的BAM文件
samtools view -b -L exome_regions.bed sample.dedup.bam > sample.exome.bam
5. 突变检测
使用 GATK HaplotypeCaller 检测变异。
# 基因组校正
gatk BaseRecalibrator \
-I sample.exome.bam \
-R reference.fasta \
--known-sites known_sites.vcf \
-O recal_data.table
gatk ApplyBQSR \
-I sample.exome.bam \
-R reference.fasta \
--bqsr-recal-file recal_data.table \
-O sample.recal.bam
# 突变检测
gatk HaplotypeCaller \
-R reference.fasta \
-I sample.recal.bam \
-O sample.raw.vcf
6. 突变注释
使用 ANNOVAR 或 SnpEff 对变异进行注释。
# 使用ANNOVAR进行注释
table_annovar.pl sample.raw.vcf humandb/ -buildver hg38 -out sample.annotated \
-remove -protocol refGene,dbnsfp -operation g,f -nastring .
全外显子测序(WES)和全基因组测序(WGS)的分析流程在技术实现上
有许多相似之处,但由于测序范围和研究目的的不同,它们的分析流程也
存在显著差异。以下从测序范围、数据处理、分析重点和复杂性四个方面
进行详细对比。
1. 测序范围
-
WES:
-
只关注基因组中外显子区域(约占1-2%),需提前设计捕获探针或目标区域。
-
在分析过程中,需要使用外显子区域 BED 文件对 BAM 文件进行区域提取,以降低非目标区域的干扰。
-
-
WGS:
-
覆盖整个基因组,包括外显子、内含子、调控区和重复序列等非编码区域。
-
不需要进行目标区域提取,所有区域的变异都需考虑。
-
**区别:**WES 的分析需要特定的捕获和提取步骤,WGS 则是全面的分析。
2. 数据处理
-
数据量:
-
WES 数据量较小(通常为 5-10 Gb/样本),存储和计算资源需求较低。
-
WGS 数据量较大(通常为 90-150 Gb/样本),需要更高的计算能力和存储空间。
-
-
比对步骤:
-
WES 和 WGS 的比对过程本质相同,但 WES 的比对结果会过滤非外显子区域;WGS 需全基因组范围内比对,可能面临更高的复杂度(例如重复序列和难比对区域)。
-
-
区域提取:
-
WES 需要将比对后的 BAM 文件与目标区域(BED 文件)交叉分析,提取外显子区域的比对数据。
-
WGS 不需要此步骤。
-
**区别:**WES 需要额外的目标区域提取,而 WGS 则需要处理大数据量。
3. 分析重点
-
WES:
-
主要关注外显子区域的变异检测(如单核苷酸变异 SNP 和小片段插入/缺失 Indel)。
-
临床重点通常是与已知疾病基因相关的区域。
-
-
WGS:
-
除了编码区变异外,还需分析非编码区变异(如增强子突变、启动子变异)。
-
结构变异(SV)检测是 WGS 的重要内容,包括染色体易位、倒位、大片段插入/缺失和拷贝数变异(CNV)。
-
适用于探索未知致病变异。
-
**区别:**WES 专注于编码区变异,WGS 涵盖全基因组,分析范围更广,尤其是非编码区和复杂变异。
4. 复杂性
-
分析复杂性:
-
WES 的分析范围小,计算和解读较为简单,结果主要集中在外显子区域和临床相关基因。
-
WGS 数据量大,分析更复杂,尤其是非编码区变异的功能预测、结构变异的准确性,以及注释的全面性。
-
-
解读难度:
-
WES 的变异解读较为直接,重点关注已知的疾病基因和致病变异库。
-
WGS 包含大量非编码区变异,解读难度大,非编码变异的生物学意义通常不明确。
-
**区别:**WGS 的复杂性和解读难度远高于 WES,需要更多的计算资源和专业知识支持。
总结对比表
特点 | WES | WGS |
---|---|---|
测序范围 | 外显子区域(1-2%) | 全基因组(100%) |
数据量 | 小(5-10 Gb) | 大(90-150 Gb) |
区域提取 | 必须进行目标区域提取(使用 BED 文件) | 不需要 |
分析重点 | 编码区变异(SNP 和 Indel) | 编码区和非编码区变异、结构变异(SV 和 CNV) |
分析复杂性 | 较低,专注于外显子区域 | 较高,需全面分析全基因组 |
解读难度 | 低,关注临床已知基因 | 高,需解析未知区域及复杂变异 |
适用场景 | 单基因遗传病、已知编码区相关疾病 | 癌症研究、复杂疾病、未知变异的探索 |
总结:
-
如果研究目的是快速、低成本地检测已知疾病基因的变异,WES 是更高效的选择。
-
如果需要全面探索基因组变异,包括非编码区和复杂变异,则 WGS 更合适。
生信大白记第34记,就到这里,关注我!
下一记,持续更新学习生物信息学的内容!
生信大白记邮箱账号:shengxindabaiji@163.com
生信大白记简书账号:生信大白记
生信大白记CSDN账号:生信大白记
生信大白记微信公众号:生信大白记
加入生信大白记交流群938339543