全外显子测序分析

**全外显子测序(Whole Exome Sequencing, WES)全基因组测序(Whole Genome Sequencing, WGS)**是两种广泛应用于基因组研究和临床诊断的高通量测序技术。

图片

它们各有特点和应用场景,以下是它们的主要区别:


1. 测序范围

  • 全外显子测序(WES)

    • 仅针对基因组中外显子区域(约占全基因组的1-2%),即能够编码蛋白质的部分进行测序。

    • 目标区域约为30-50 Mb(百万碱基对)。

    • 通常通过富集捕获的方法选择外显子区域进行测序。

  • 全基因组测序(WGS)

    • 涉及整个基因组的测序,包括编码区(外显子)、非编码区(内含子、调控区等)以及线粒体DNA。

    • 覆盖范围约为3 Gb(十亿碱基对)。


2. 数据量和成本

  • WES

    • 数据量较小,通常为5-10 Gb。

    • 成本较低,适用于预算有限的研究或临床应用。

  • WGS

    • 产生的数据量较大,通常为90-150 Gb。

    • 成本较高,但随着技术进步,价格逐渐下降。


3. 检测能力

  • WES

    • 专注于外显子区域,能有效检测与疾病相关的编码变异(如单核苷酸变异和小片段插入/缺失)。

    • 对非编码区变异无检测能力,无法全面解析调控区变异或结构变异。

  • WGS

    • 提供全面的基因组变异信息,包括编码区和非编码区的变异、拷贝数变异(CNV)、结构变异(如染色体易位、倒位)和重复序列变异。

    • 适合于未知致病变异的全面探索。


4. 分析复杂性

  • WES

    • 数据量小,分析较为简单,重点关注已知与疾病相关的基因区域。

    • 生物信息学处理和存储需求较低。

  • WGS

    • 数据量庞大,分析更复杂,需要更高效的计算资源。

    • 结果解读难度更高,尤其是非编码区变异的功能预测和临床意义评估。


5. 应用场景

  • WES

    • 疾病基因筛查: 适用于已知与编码区相关的单基因病研究或遗传病诊断。

    • 快速诊断: 尤其适合明确的目标区域(外显子)的研究。

    • 成本受限的项目: 在预算有限的情况下选择WES较为合理。

  • WGS

    • 全基因组探索: 特别适用于寻找未知致病突变或复杂病变的研究。

    • 癌症研究: 涵盖肿瘤特有的结构变异和非编码区调控突变。

    • 进化研究: 提供全基因组范围的遗传信息,适合物种比较和群体遗传学。


6. 优缺点对比

特点WESWGS
测序范围外显子区域全基因组
数据量较小较大
成本较低较高
检测范围编码区变异编码区和非编码区变异均可检测
适用场景编码区相关疾病全基因组突变分析
技术复杂性较低较高

总结

  • 如果目标是寻找已知基因区域的突变或预算有限,WES是更合适的选择。

  • 如果需要全面探索基因组变异,或研究非编码区和复杂结构变异,WGS更具优势。实际选择取决于研究目的、预算和数据分析能力。

以下是全外显子测序(WES)典型分析流程及实现代码示例。我们以常用的工具(如FastQCBWAGATK等)为例,提供脚本示范。请根据实际需求和环境配置调整代码。


全外显子测序(WES)分析流程

1. 数据质控

使用 FastQC 和 MultiQC 对原始数据进行质控。

# 运行FastQCfastqc -t 4 sample_R1.fastq.gz sample_R2.fastq.gz -o ./fastqc_output/
# 运行MultiQC整合FastQC报告multiqc ./fastqc_output/ -o ./multiqc_output/

2. 数据比对

使用 BWA 将测序数据比对到参考基因组。​​​​​​​

# 创建索引(仅需一次)bwa index reference.fasta
# 比对bwa mem -t 8 reference.fasta sample_R1.fastq.gz sample_R2.fastq.gz > sample.sam

3. SAM/BAM 处理

将 SAM 文件转换为 BAM 文件,排序,并标记重复。​​​​​​​

# 转换为BAM并排序samtools view -bS sample.sam | samtools sort -o sample.sorted.bam
# 标记重复gatk MarkDuplicates -I sample.sorted.bam -O sample.dedup.bam -M sample.metrics.txt

4. 外显子区域捕获

通过 BED 文件定义外显子区域,进行目标区域提取。​​​​​​​

# 提取外显子区域的BAM文件samtools view -b -L exome_regions.bed sample.dedup.bam > sample.exome.bam

5. 突变检测

使用 GATK HaplotypeCaller 检测变异。​​​​​​​

# 基因组校正gatk BaseRecalibrator \    -I sample.exome.bam \    -R reference.fasta \    --known-sites known_sites.vcf \    -O recal_data.table
gatk ApplyBQSR \    -I sample.exome.bam \    -R reference.fasta \    --bqsr-recal-file recal_data.table \    -O sample.recal.bam
# 突变检测gatk HaplotypeCaller \    -R reference.fasta \    -I sample.recal.bam \    -O sample.raw.vcf


6. 突变注释

使用 ANNOVAR 或 SnpEff 对变异进行注释。​​​​​​​

# 使用ANNOVAR进行注释table_annovar.pl sample.raw.vcf humandb/ -buildver hg38 -out sample.annotated \    -remove -protocol refGene,dbnsfp -operation g,f -nastring .

全外显子测序(WES)和全基因组测序(WGS)的分析流程在技术实现上

有许多相似之处,但由于测序范围和研究目的的不同,它们的分析流程也

存在显著差异。以下从测序范围数据处理分析重点复杂性四个方面

进行详细对比。


1. 测序范围

  • WES:

    • 只关注基因组中外显子区域(约占1-2%),需提前设计捕获探针或目标区域。

    • 在分析过程中,需要使用外显子区域 BED 文件对 BAM 文件进行区域提取,以降低非目标区域的干扰。

  • WGS:

    • 覆盖整个基因组,包括外显子、内含子、调控区和重复序列等非编码区域。

    • 不需要进行目标区域提取,所有区域的变异都需考虑。

**区别:**WES 的分析需要特定的捕获和提取步骤,WGS 则是全面的分析。


2. 数据处理

  • 数据量:

    • WES 数据量较小(通常为 5-10 Gb/样本),存储和计算资源需求较低。

    • WGS 数据量较大(通常为 90-150 Gb/样本),需要更高的计算能力和存储空间。

  • 比对步骤:

    • WES 和 WGS 的比对过程本质相同,但 WES 的比对结果会过滤非外显子区域;WGS 需全基因组范围内比对,可能面临更高的复杂度(例如重复序列和难比对区域)。

  • 区域提取:

    • WES 需要将比对后的 BAM 文件与目标区域(BED 文件)交叉分析,提取外显子区域的比对数据。

    • WGS 不需要此步骤。

**区别:**WES 需要额外的目标区域提取,而 WGS 则需要处理大数据量。


3. 分析重点

  • WES:

    • 主要关注外显子区域的变异检测(如单核苷酸变异 SNP 和小片段插入/缺失 Indel)。

    • 临床重点通常是与已知疾病基因相关的区域。

  • WGS:

    • 除了编码区变异外,还需分析非编码区变异(如增强子突变、启动子变异)。

    • 结构变异(SV)检测是 WGS 的重要内容,包括染色体易位、倒位、大片段插入/缺失和拷贝数变异(CNV)。

    • 适用于探索未知致病变异。

**区别:**WES 专注于编码区变异,WGS 涵盖全基因组,分析范围更广,尤其是非编码区和复杂变异。


4. 复杂性

  • 分析复杂性:

    • WES 的分析范围小,计算和解读较为简单,结果主要集中在外显子区域和临床相关基因。

    • WGS 数据量大,分析更复杂,尤其是非编码区变异的功能预测、结构变异的准确性,以及注释的全面性。

  • 解读难度:

    • WES 的变异解读较为直接,重点关注已知的疾病基因和致病变异库。

    • WGS 包含大量非编码区变异,解读难度大,非编码变异的生物学意义通常不明确。

**区别:**WGS 的复杂性和解读难度远高于 WES,需要更多的计算资源和专业知识支持。


总结对比表

特点WESWGS
测序范围外显子区域(1-2%)全基因组(100%)
数据量小(5-10 Gb)大(90-150 Gb)
区域提取必须进行目标区域提取(使用 BED 文件)不需要
分析重点编码区变异(SNP 和 Indel)编码区和非编码区变异、结构变异(SV 和 CNV)
分析复杂性较低,专注于外显子区域较高,需全面分析全基因组
解读难度低,关注临床已知基因高,需解析未知区域及复杂变异
适用场景单基因遗传病、已知编码区相关疾病癌症研究、复杂疾病、未知变异的探索

总结:

  • 如果研究目的是快速、低成本地检测已知疾病基因的变异,WES 是更高效的选择。

  • 如果需要全面探索基因组变异,包括非编码区和复杂变异,则 WGS 更合适。

生信大白记第34记,就到这里,关注我!

下一记,持续更新学习生物信息学的内容!

生信大白记邮箱账号:shengxindabaiji@163.com

生信大白记简书账号:生信大白记

生信大白记CSDN账号:生信大白记

生信大白记微信公众号:生信大白记

加入生信大白记交流群938339543

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值