NMPA已注册肿瘤小Panel试剂盒生物信息学内容对比
近期突然有个想法,想看看NMPA(原CFDA)已经批准上市的肿瘤小Panel肺癌/肠癌靶向用药伴随诊断试剂盒都是怎么做生物信息学分析的,于是就找来了最早已经上市的3家公司的技术审评报告来看了一下:
下面我们看下3家公司生物信息学分析部分,内容描述来自产品说明书:
广州燃石
-
数据预处理,样本类型FFPE:
-
Illumina Sequencing Analysis Viewer v2.4.5 分析每批次数据Q30比例Q30≥75%通过;<75%质控不通过.
-
Illumina bcl2fastq v2.19 将MiSeqDx测序文件bcl转化成fastq文件。
-
Trimmomatic 0.36取出建库过程中引入接头和低质量碱基片段。(尾部8个碱基平均质量<20以及长度小于50bp的短片段)
-
-
数据比对:
- Bwa v0.7.10 GATK v3.2-2 将fastq文件碱基序列比对至hg19(GRCh37)生成bam文件,根据基因组坐标对bam文件进行排序,然后对基因组复杂区域进行序列化比对优化。
-
数据质控:
项目 范围 Q30比例 ≥80% Mapping比例 ≥90% 建库复杂度(100%-dup %) ≥20% 目标区域中位数测序深度 ≥500 -
突变分析:
-
Varscan 2.3.9 分析样本中snp,indel;
-
融合分析factera 1.4
-
分析参数要求点位覆盖深度≥100,序列比对质量≥60,碱基质量≥30
-
-
突变注释:
- annovar 20150617和 snpEff 4.2对点突变、插入缺失、基因重排(融合)进行HGVS格式和COSMIC数据库(v69)注释
-
阳性判断值:
- 突变双端支持的独特DNA片段 reads≥2 判断为阳性;反之为阴性
-
最低检出限:
- 50ng DNA样本中突变频率低至2%的EGFR/BRAF/KRAS突变和突变频率低至10%的ALK基因重排(融合)突变
南京世和
-
数据预处理:(样本类型FFPE)
-
Illumina Sequencing Analysis Viewer v1.8 分析每一批测序数据Q30比例,≥75%通过,<75%质控不通过
-
Illumina bcl2fastq 2.19 将MiseqDx测序生成bcl文件转化为fastq文
-
Trimmomatic 0.36 去除建库中引入的接头序列和低质量碱基片段
-
-
数据比对:
- Bwa 0.7 版本和GATK 3.4将fastq文件碱基比对至hg19(GRCh37)人类参考基因组上生成bam文件,并根据基因组坐标对bam文件进行排序,然后对基因组复杂区域进行序列比对优化。
-
数据质控:
项目 范围 Q30比例 ≥75% Mapping 比例 ≥90% 平均测序深度 ≥700 -
突变分析:
-
Varscan 2.3 分析样本中snp 和 indel
-
Delly 0.7 / Socrates 1.1 分析样本中的融合
-
要求序列比对质量≥30,碱基质量≥20
-
-
突变注释:
- ANNOVAR 20160425 / VEP 83对鉴定出的点突变、插入缺失和基因融合HGVS格式和COSMIC数据库(v71)、CLINVAR数据库(v20171231)、dbSNP数据库(v138)、1000Genomes数据库(v201508)、ExAC数据库(v0.3)注释
-
阳性判断标准:
- 突变丰度≥0.6%为突变阳性;反之为阴性
-
最低检出限:
- 250ng DNA样本 编译比例低至1%的EGFR、ROS1、BRAF、KRAS、HER2基因编译和2.5% ALK基因融合
厦门艾德
-
质量评估:(样本类型FFPE):
-
Illumina bcl2fastq v2.17 将CnNextSeq500(贝瑞和康)测序文件bcl转化成fastq文件。
-
使用illuminate 0.6 读取测序文件中InterOp目录记录信息,对本地测序进行质量评估,要求Q30 比例 >75%
-
-
数据预处理:
- 根据文库结构信息,识别文件中的UMI(Unique Molecular Identity)格式和序列(基于FormatFastq V1软件)。
-
序列比对:
- 将fastq文件比对至人类参考基因组hg19(GRCh37)上生成bam文件(bwa 0.7和samtools 1.3)。
-
碱基校正:
- 使用碱基序列校正模块(基于SSBC V1软件),根据UMI序列信息,讲测序序列中同源序列聚类,进行碱基校正,去除PCR及测序过程中的随机错误。
-
突变分析:
- 使用变异监测模块(基于SSBC-VarScan v1软件),通过碱基校正后的序列比对文件分析样本中的点突变和插入缺失突变;使用融合检测模块(基于FusionCaller V1软件),通过将比对文件中疑似携带融合信号的序列进行拆分、校正,分析样本中的融合基因。
-
突变注释:
- 使用变异注释模块(基于Annotator V0.2和FusionAnnotator V0.1软件),对监测到的点突变、插入缺失和基因融合进行HGVS格式和COSMIC数据库(V77)、CLINVAR数据库(v20160601)、dbSNP数据库(v147)、1000Genomes(v201305)的注释
-
数据质控标准:
项目 范围 Coverage >98% Mean Depth平均测序深度 >10000x 平均有效深度(SSBD Depth,单链校正后深度) >500x -
阳性判断标准:
- 测序有效深度≥500x 突变比例≥0.4% 突变绝对拷贝数不低于2,离岸平衡特性介于0.1-0.9之间(融合不适用),满足以上条件判断为阳性,否则为阴性或低于试剂盒检测下限。
详细对比表格
项目 | 广州燃石 | 南京世和 | 厦门艾德 |
---|---|---|---|
样本类型 | 福 尔 马 林 固 定 的 石 蜡 包 埋 ( FFPE ) 的 组 织 样 本 | 福 尔 马 林 固 定 的 石 蜡 包 埋 ( FFPE ) 的 组 织 样 本 | 福 尔 马 林 固 定 的 石 蜡 包 埋 ( FFPE ) 的 组 织 样 本 |
测序平台 | MiSeqDx Illumina | MiSeqDx Illumina | NextSeq CN500 (贝瑞合康注册的NextSeq500) |
检测基因 | EGFR/ALK/ BRAF/KRAS | EGFR/ALK/ROS1/BRAF/KRAS/HER2 | EGFR/ALK/ROS1/RET/KRAS/ NRAS/PIK3CA/BRAF/HER2/MET |
预期用途 | 定性检测非小细胞肺癌(NSCLC) | 定性检测非小细胞肺癌(NSCLC) | 定性检测非小细胞肺癌(NSCLC)、 结直肠癌(CRC) |
数据预处理 | 1.Illumina Sequencing Analysis Viewer v2.4.5 分析每批次数据Q30比例Q30>=75%通过;<75%质控不通过. 2.Illumina bcl2fastq v2.19 将MiSeqDx测序文件bcl转化成fastq文件。 3.Trimmomatic 0.36取出建库过程中引入接头和低质量碱基片段。(尾部8个碱基平均质量<20以及长度小于50bp的短片段) | 1. Illumina Sequencing Analysis Viewer v1.8 分析每一批测序数据Q30比例,>=75%通过,<75%质控不通过 2. Illumina bcl2fastq 2.19 将MiseqDx测序生成bcl文件转化为fastq文件 3. Trimmomatic 0.36 去除建库中引入的接头序列和低质量碱基片段 | 1. Illumina bcl2fastq v2.17 将CnNextSeq500(贝瑞和康)测序文件bcl转化成fastq文件。 2. 使用illuminate 0.6 读取测序文件中InterOp目录记录信息,对本地测序进行质量评估,要求Q30 比例 >75% 3. 根据文库结构信息,识别文件中的UMI(Unique Molecular Identity)格式和序列(基于FormatFastq V1软件) |
数据比对 | Bwa v0.7.10 GATK v3.2-2 将fastq文件碱基序列比对至hg19(GRCh37)生成bam文件,根据基因组坐标对bam文件进行排序,然后对基因组复杂区域进行序列化比对优化。 | Bwa 0.7 版本和GATK 3.4将fastq文件碱基比对至hg19(GRCh37)人类参考基因组上生成bam文件,并根据基因组坐标对bam文件进行排序,然后对基因组复杂区域进行序列比对优化。 | 序列比对:将fastq文件比对至人类参考基因组hg19(GRCh37)上生成bam文件(bwa 0.7和samtools 1.3)。 碱基校正:使用碱基序列校正模块(基于SSBC V1软件),根据UMI序列信息,讲测序序列中同源序列聚类,进行碱基校正,去除PCR及测序过程中的随机错误。 |
数据质控 | Q30比 >=80% Mapping比例 >=90% 建库复杂度(100%-dup %) >=20% 目标区域中位数测序深度 >=500 | Q30比例 >=75% Mapping 比例 >=90% 平均测序深度 >=700 | Coverage >98% Mean Depth平均测序深度 >10000x 平均有效深度 (SSBD Dept单链校正后深度) >500x |
突变分析 | Varscan 2.3.9 分析样本中snp,indel;融合分析factera 1.4 分析参数要求点位覆盖深度>=100,序列比对质量>=60,碱基质量>=30 | Varscan 2.3 分析样本中snp 和 indel Delly 0.7 / Socrates 1.1 分析样本中的融合 要求序列比对质量>=30,碱基质量>=20 | 使用变异监测模块(基于SSBC-VarScan v1软件),通过碱基校正后的序列比对文件分析样本中的点突变和插入缺失突变;使用融合检测模块(基于FusionCaller V1软件),通过将比对文件中疑似携带融合信号的序列进行拆分、校正,分析样本中的融合基因。 |
突变注释 | annovar 20150617和 snpEff 4.2对点突变、插入缺失、基因重排(融合)进行HGVS格式和COSMIC数据库(v69)注释 | ANNOVAR 20160425 / VEP 83对鉴定出的点突变、插入缺失和基因融合HGVS格式和COSMIC数据库(v71)、CLINVAR数据库(v20171231)、dbSNP数据库(v138)、1000Genomes数据库(v201508)、ExAC数据库(v0.3)注释 | 使用变异注释模块(基于Annotator V0.2和FusionAnnotator V0.1软件),对监测到的点突变、插入缺失和基因融合进行HGVS格式和COSMIC数据库(V77)、CLINVAR数据库(v20160601)、dbSNP数据库(v147)、1000Genomes(v201305)的注释 |
阳性判断值 | 突变双端支持的独特DNA片段 reads>=2 判断为阳性;反之为阴性 | 突变丰度>=0.6%为突变阳性;反之为阴性 | 测序有效深度>=500x 突变比例>=0.4% 突变绝对拷贝数不低于2,离岸平衡特性介于0.1-0.9之间(融合不适用),满足以上条件判断为阳性,否则为阴性或低于试剂盒检测下限。 |
最低检出限 | 50ng DNA样本中突变频率低至2%的EGFR/BRAF/KRAS突变和突变频率低至10%的ALK基因重排(融合)突变 | 250ng DNA样本 编译比例低至1%的EGFR、ROS1、BRAF、KRAS、HER2基因编译和2.5% ALK基因融合 | 构建好的DNA文库总量应大于0.5μg,文库片段长度的主峰应约为380pb,否则建库样品不符合要求,应重新建库。 捕获后的样品DNA文库总量应大于50ng,文库主要片段应与捕获前片段分布保持一致,否则捕获失败,应重新捕获。 |
一些思考和疑问:
- 数据预处理、数据比对、数据质控部分基本大同小异。突变分析这里,3家公司都选择使用了varscan2,变异分析软件这么多(GATK,Sentieon,Strelka2等等吧),是因为varscan2依赖少,容易解读? 有大佬知道么?
- 市场上肿瘤小Panel为了成本考虑,普遍都是Tumor Only 模式分析,在生物信息学分析上是如何实现的?是使用一个混合的生物样本作为Normal?还是就没有Normal数据?