靶向测序(Targeted Sequencing)
靶向测序是一种聚焦于基因组中特定区域的高通量测序技术。相比全基因组测序(WGS),靶向测序数据量更小,但灵敏度更高,适合深入研究特定区域的遗传变异。
1. 技术原理
靶向测序通过选择感兴趣的基因或区域,富集目标片段后进行高通量测序。主要包括以下步骤:
- 目标区域选择
:根据实验需求,选择特定的基因组区域(如癌症相关基因或已知疾病易感区域)。
- 目标区域富集
:通过特定技术(如探针捕获或PCR扩增)富集目标片段。
- 高通量测序
:对富集的片段进行测序。
- 数据分析
:检测目标区域的突变(如SNP、插入缺失、拷贝数变异等)。
2. 富集技术
靶向测序的核心是目标区域的富集方法,主要包括以下两种:
-
探针捕获法(Hybridization Capture)
-
使用标记的寡核苷酸探针与目标区域互补结合,再通过磁珠或其他手段进行捕获。
-
适合大范围目标区域的捕获,灵活性强。
-
应用场景:癌症基因组研究、外显子组捕获。
-
-
多重PCR扩增法(Multiplex PCR)
-
使用多对特异性引物对目标区域进行扩增。
-
速度快、成本低,但不适合捕获非常大的区域。
-
应用场景:特定基因的变异验证、遗传病检测。
-
3. 优势与局限
优势
- 高灵敏度
:适合检测低频变异,尤其是在肿瘤样本中。
- 低成本
:与WGS相比,靶向测序的数据量更小,成本显著降低。
- 专注性强
:聚焦于特定基因或区域,简化了后续数据分析。
- 灵活性高
:可以根据研究目标定制捕获区域。
局限性
- 覆盖范围有限
:仅检测预定义区域,无法发现目标区域外的变异。
- 偏倚风险
:捕获效率可能不均匀,导致某些区域覆盖不足。
- 变异发现有限
:对于未知或远离捕获区域的变异难以检测。
4. 应用场景
靶向测序广泛用于临床和科研领域,尤其是在需要高效解析特定基因变异的情况下:
-
遗传病研究
-
筛查与遗传病相关的候选基因。
-
快速检测已知疾病相关突变(如囊性纤维化、地中海贫血等)。
-
-
癌症基因组学
-
分析癌症样本中常见的致癌基因(如TP53、KRAS)。
-
追踪肿瘤进化、监测残余病变和复发。
-
-
药物基因组学
-
检测与药物反应相关的基因(如CYP450家族)。
-
优化个性化治疗方案。
-
-
微生物与病原体检测
-
靶向检测抗生素耐药基因或病毒基因组(如HIV、COVID-19变种)。
-
分析病原体间的遗传变异。
-
5. 常用平台和技术
靶向测序技术通常基于以下测序平台:
- Illumina
:短读长测序,适合小变异的高精度检测。
- Ion Torrent
:适合快速检测特定区域变异。
- PacBio/Oxford Nanopore
:长读长测序,解析复杂区域(如重复序列、结构变异)。
6. 发展趋势
- 低成本与高效率
:新技术不断优化探针设计和捕获效率。
- 联合多组学分析
:结合表观组学、转录组学以获得更全面的生物学信息。
- 实时测序与便携设备
:例如,Nanopore技术实现快速、现场测序。
靶向测序是一种高效、灵活的工具,在基因组医学和基础研究中具有不可替代的作用。
靶向测序的分析流程包括数据预处理、变异检测、注释及后续分析,每一步都需要严格按照实验和生物信息学标准进行操作。以下是靶向测序的分析流程:
1. 数据预处理
1.1 数据质控(Quality Control, QC)
- 目标
:评估和过滤低质量数据,确保下游分析的准确性。
- 步骤:
-
软件:Trimmomatic、Cutadapt。
- FastQC
:生成测序质量报告。
- MultiQC
:整合多个样本的质控报告。
-
检查测序质量(如碱基质量分布、接头污染)。
-
软件工具:
-
根据质控结果进行过滤和去接头:
-
1.2 比对(Alignment)
- 目标
:将测序读段(reads)比对到参考基因组。
- 步骤:
-
选择参考基因组(如人类基因组GRCh38)。
-
比对工具:BWA(常用于短读长数据)、Bowtie2。
-
输出文件:生成比对结果文件(BAM格式)。
-
过滤:去除低质量比对和多重比对reads。
-
1.3 比对结果处理
- 目标
:优化比对结果,提高变异检测的精度。
- 步骤:
-
工具:IGV(Integrative Genomics Viewer),查看覆盖度和比对质量。
-
工具:GATK。
-
作用:提高变异检测的准确性。
-
工具:Picard。
-
作用:标记因PCR扩增产生的重复reads,避免误判变异。
- 标记重复序列
:
- 校正碱基质量(Base Quality Score Recalibration, BQSR)
:
- 可视化比对结果
:
-
2. 变异检测(Variant Calling)
2.1 突变检测
- 目标
:识别单核苷酸变异(SNP)、插入和缺失(Indel)。
- 工具:
- GATK HaplotypeCaller
:高精度检测单体型变异。
- FreeBayes
:适合多样本联合变异检测。
- VarScan2
:灵敏度高,适合检测低频突变。
- GATK HaplotypeCaller
2.2 结构变异(Structural Variants, SV)检测
- 目标
:检测较大的变异(如拷贝数变异、倒位、融合)。
- 工具:
- Manta
:检测复杂结构变异。
- CNVkit
:专注拷贝数变异分析。
- Manta
2.3 突变过滤
- 目标
:去除假阳性,获得高可信度突变。
- 方法:
-
设置最小覆盖度和突变频率阈值。
-
交叉参考公共数据库(如1000 Genomes、gnomAD)。
-
3. 突变注释(Variant Annotation)
3.1 基因功能注释
- 目标
:将突变与已知基因功能、疾病关联信息联系起来。
- 工具:
- ANNOVAR
:全面注释突变的功能影响。
- SnpEff
:快速注释SNP和Indel。
- ANNOVAR
3.2 数据库参考
- 数据库:
- ClinVar
:疾病相关变异数据库。
- COSMIC
:癌症突变数据库。
- dbSNP
:已知单核苷酸变异库。
- ClinVar
3.3 优先级排序
- 目标
:根据变异的可能致病性对结果排序。
- 评分工具:
- CADD
(预测变异功能的评分)。
- PolyPhen-2
、SIFT(蛋白功能预测)。
- CADD
4. 下游分析
4.1 临床相关性分析
- 目标
:评估突变的致病性和临床意义。
- 应用
:诊断遗传病、确定癌症驱动基因突变。
4.2 突变频率分析
- 目标
:研究群体中突变的分布和进化关系。
- 工具
:vcftools、Plink。
4.3 可视化
- 目标
:展示分析结果,便于解释和报告。
- 工具:
- Circos
:环形基因组变异展示。
- maftools
:肿瘤突变谱展示。
- Circos
5. 报告生成
- 目标
:将分析结果转化为用户友好的报告。
- 内容:
-
样本质量评估。
-
目标区域覆盖度和均一性。
-
突变列表及其注释。
-
临床相关结论(如高危突变)。
-
6. 常见问题与解决方法
- 目标区域覆盖不足
:优化探针设计或增加测序深度。
- 高背景噪音
:严格设置过滤参数,去除假阳性。
- 数据处理耗时长
:使用高性能计算或并行化工具。
这一流程灵活性较高,可根据研究目标(如癌症基因组分析或遗传病筛查)调整细节步骤。
以下是一个完整的靶向测序分析流程的代码框架,使用常用的生物信息学工具(如FastQC、BWA、GATK、VCFtools等)。这些代码适用于一个标准的靶向测序分析流程,包括从原始数据的质控到变异注释。可以根据具体需求和计算环境调整。
1. 环境准备
确保安装以下工具并设置好环境路径:
-
FastQC
-
MultiQC
-
Trimmomatic
-
BWA
-
Samtools
-
GATK
-
VCFtools
-
ANNOVAR
2. 运行脚本化
将流程整合为一个Bash脚本:
#!/bin/bash
# 靶向测序分析流程
# 1. 数据质控
fastqc raw_data/*.fastq.gz -o QC_results/
multiqc QC_results -o QC_results/
trimmomatic PE raw_data/sample_R1.fastq.gz raw_data/sample_R2.fastq.gz \
trimmed_reads/sample_R1_paired.fastq.gz trimmed_reads/sample_R1_unpaired.fastq.gz \
trimmed_reads/sample_R2_paired.fastq.gz trimmed_reads/sample_R2_unpaired.fastq.gz \
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:4:20 MINLEN:50
# 2. 比对
bwa mem -t 8 -M reference/genome.fa \
trimmed_reads/sample_R1_paired.fastq.gz \
trimmed_reads/sample_R2_paired.fastq.gz > aligned_reads/sample.sam
samtools view -bS aligned_reads/sample.sam | samtools sort -o aligned_reads/sample.sorted.bam
gatk MarkDuplicates -I aligned_reads/sample.sorted.bam -O aligned_reads/sample.sorted.markdup.bam \
-M aligned_reads/sample.markdup_metrics.txt
samtools index aligned_reads/sample.sorted.markdup.bam
# 3. 变异检测
gatk HaplotypeCaller -R reference/genome.fa -I aligned_reads/sample.recal.bam \
-O variants/sample.raw.vcf
gatk VariantFiltration -R reference/genome.fa -V variants/sample.raw.vcf \
--filter-expression "QUAL < 30.0 || DP < 10" --filter-name "LowQual" \
-O variants/sample.filtered.vcf
bcftools view -f PASS variants/sample.filtered.vcf > variants/sample.passed.vcf
# 4. 注释
convert2annovar.pl -format vcf4 variants/sample.passed.vcf > annotation/sample.avinput
table_annovar.pl annotation/sample.avinput humandb/ \
-buildver hg38 -out annotation/sample -remove \
-protocol refGene,clinvar_20230101,cosmic70 -operation g,f,f -nastring . -polish
# 5. 报告
multiqc QC_results/ -o final_report/
cp variants/sample.passed.vcf final_report/
cp annotation/sample.hg38_multianno.txt final_report/
cp QC_results/sample.coverage_metrics.txt final_report/
echo "靶向测序分析完成,结果保存在 final_report/ 文件夹中"
将此脚本保存为targeted_seq_pipeline.sh
并运行:
bash targeted_seq_pipeline.sh
注意
-
更改路径和参数以适应您的实验设计和数据格式。
-
确保输入文件的完整性和参考基因组的一致性。
生信大白记第42记,就到这里,关注我!
下一记,持续更新学习生物信息学的内容!
生信大白记邮箱账号:shengxindabaiji@163.com
生信大白记简书账号:生信大白记
生信大白记CSDN账号:生信大白记
生信大白记微信公众号:生信大白记
加入生信大白记交流群938339543