在线工具 及 原文链接
Online resources for data access, visualization and analysis | 数据及可视化、分析工具 |
---|---|
Direct download of PCAWG data | 肿瘤基因组学数据下载 1 |
The PCAWG landing page | provides links to several data resources for interactive online browsing, analysis and download of PCAWG data and results(登录号EGAS00001001692) |
Aligned PCAWG read data | BAM format |
Open-tier PCAWG genomics data, as well as reference datasets | BAM format |
Controlled-tier genomic data, including SNVs and indels that originated from TCGA projects and aligned reads | VCF format and BAM format |
PCAWG computational pipelines | 肿瘤基因组学数据分析工具 |
PCAWG Dockstore images | The core alignment, somatic variant-calling, quality-control and variant consensus-generation pipelines |
ICGC Data Portal | 肿瘤基因组学数据下载 2 |
ICGC Data Portal | Main entry point for accessing PCAWG datasets |
UCSC Xena | 数据可视化 1 |
UCSC Xena | Visualizes all PCAWG primary results |
The Expression Atlas | 基因表达图谱 |
The Expression Atlas | RNA-sequencing and expression microarray data |
PCAWG Scout | 数据可视化 2 |
PCAWG Scout | A framework for omics workflow and website templating to generate on-demand, in-depth analyses of the PCAWG data |
Chromothripsis Explorer | 数据可视化 3 |
Chromothripsis Explorer | A portal that allows structural variation in the PCAWG dataset to be explored on an individual patient basis through the use of circos plots |
突变分类及定义
一、肿瘤基因组数据分析情况概述
a. 基因分析工具(DKFZ、Sanger、Mutect)分析单核苷酸变异(Single-nucleotide variant,SNV,参考SNP)的精准度和敏感度评分(F1,越高越好)
b. 基因分析工具分析插入、缺失变异(insertion and deletion,Indels)的F1
c. 核心算法(DKFZ、Sanger、Mutect、two_plus、Logistic regression)分析SNV的准确度
d. 核心算法分析Indels的准确度
可以看到逻辑回归(Logistic regression)的表现比较好
二、肿瘤突变概况
a. 突变包括
遗传突变(Germline mutation,与体细胞突变:Somatic mutation对应)
体细胞拷贝数目变异(Somatic copy number alteration,SCNA [包括:拷贝数增加;插入、缺失变异insertion and deletion,Indels])
基因重排(Gene rearrangement,GR)
非编码区点突变(Non-coding point mutations)
编码区点突变(Coding point mutations),后两者与单核苷酸多态性(Single nucleotide polymorphism,SNP)有关
91%的肿瘤与其中一种及以上的基因变异有关
b. 胶质瘤(GBM)相关变异基因
胶质瘤主要变异分类为抑癌基因的点突变及基因缺失、癌基因的扩增(MYC)、及基因融合(TERT)
TP53的编码区点突变及TP53基因缺失
CDKN2A的编码区点突变及CDKN2A基因缺失
CDKN2B的基因缺失
PTEN的编码区点突变及PTEN基因缺失
PIK3CA的编码区点突变
RB1的编码区点突变及RB1基因缺失
NF1(NF-κB相关基因)的编码区点突变及NF1基因缺失
PBRM1的编码区点突变及PBRM1基因缺失
ATM的编码区点突变及ATM基因缺失
MYC的基因扩增及点突变
TERT,端粒酶基因的基因融合
c. 常见的抑癌基因变异为
TP53等位基因 缺失变异/点突变
CDKN2A等位基因 缺失变异/缺失变异,缺失变异/点突变
CDKN2B等位基因 缺失变异/缺失变异
PTEN等位基因 缺失变异/缺失变异,缺失变异/点突变
PIK3CA -
RB1等位基因 缺失变异/缺失变异,缺失变异/点突变,缺失变异/基因重排
NF1等位基因 缺失变异/缺失变异,缺失变异/点突变,缺失变异/基因重排
PBRM1等位基因 缺失变异/点突变
ATM等位基因 缺失变异/点突变,缺失变异/点突变(遗传突变)
三、不含有(未检测到)突变的肿瘤概况
a. 当前样本中未发现GBM不存在突变的情况,但有3个髓母细胞瘤(Medulloblastoma and variants,Medullo)样本未发现基因突变
b. 检测无基因(各个肿瘤)突变的敏感度(SEN),检测Medullo无突变的SEN ≈ 1
c. 检测出TERT基因的SEN,检测出Medullo TERT基因的SEN分布在0~1
d. Medullo 1-22号染色体中显著性突变位于2、3、5、8、10、16、17号基因
q值统计学意义参考 错误发现率(FDR,false discovery rate)(https://baike.baidu.com/item/FDR/16312044?fr=aladdin)
e. 举例说明了肾脏嫌色细胞癌(chRCC)和胰腺内分泌肿瘤(Endocrine)全基因组中基因插入和缺失突变情况
四、集群突变(涉及染色体的大规模突变)概况
包括三种:相近位置出现大规模置换突变(Kataegis),复杂的基因重组(Chromoplexy),染色体碎裂(Chromothripsis)
a. GBM中约50%的Kataegis与APOBEC3蛋白介导的染色体结构变异(Structural variation,SV)有关;而Chromoplexy发生率较小(以染色体平衡易位,Balanced translocation为主);Chromothripsis发生率约70%,主要包括多染色体碎裂及基因扩增(Amplifications)为主
b. Kataegis发生的位点,基因置换移动距离和涉及的基因
c. Chromoplexy发生的位点,基因置换移动距离和涉及的基因
d. Chromothripsis时基因重排(获得/丢失)数(灰色曲线),基因扩增数(蓝色曲线)和纯合子丢失(Homozygously deleted)数(紫色曲线);以及23条上染色体基因断点距离
GBM相关基因:
TERT基因扩增 n = 22
EGFR基因扩增 n = 9
CDKN2A纯合子丢失 n = 15
RB1基因获得/丢失 n = 7
NF1基因扩增 n = 11
五、集群突变发生的时间和程度
a. 在GBM中发生率 Kataegis > Chromothripsis > Chromoplexy ; clonal和subclonal结构的比率相仿(这两个概念参考) ; Kataegis 和Chromothripsis在GBM发生的早期和晚期没有差异,而GBM早期会出现Chromoplexy
b. 三个黑色素瘤样本的5号染色体(蓝色竖线是TERT基因的位置)和11号染色体(CCND1)的例子:其中标明了染色体易位(黑色竖线),缺失突变(紫色弧线),重复突变(棕色弧线),尾对尾反转(青色弧线),头对头反转(绿色弧线);等位基因中突变基因所占比例(VAF)几乎都在50%左右
六、体细胞突变导致的遗传突变(遗传变异)概述
a. 最小等位基因频率>5%的遗传突变与体细胞APOBEC3B(载脂蛋白 B mRNA 编辑酶催化多肽,参考APOBEC3)的相关性(注意genome-wide significance 选取的P值小于5×10-8,而不是常规的5×10-2 = 0.05)
b. BRCA1基因相关的前列腺癌情况,轮状图自外向内分别是(1)染色体带(2)≤10 mb的染色体结构突变(SV)位置(3)拷贝数0-6的变化(4)>10 mb的染色体内(缺失、重复、倒位)、染色体间(易位)结构突变 ;右侧最下图显示发生在2号染色体上的2.2kb的串联重复(黄色箭头),合并了一段来自5号染色体的倒位易位(逆序插入)基因(蓝色箭头);其上方两行显示了基因断裂位点及位点附近的短序列
c. 低频遗传变异(最小等位基因频率<0.5%)与CpG突变的关系
d. 遗传突变所在染色体位点、类型
七、端粒酶序列(包括ATRX,DAXX,RB1,TERT)的概况
a. 端粒酶序列的聚类分析(圆形为正常组织,三角形为肿瘤组织),四分类方法可以显著的区分肿瘤和正常组织
b. 四分类在不同肿瘤中的分布,其中GBM以Cluster 4(约90%)为主,以及Cluster 2(约10%)
c. 四分类包括:
Cluster 1:以ATRX的结构突变,RB1的结构突变+基因缺失为主
Cluster 2:以ATRX的基因缺失,DAXX的基因缺失为主
Cluster 3:TERT单核苷酸突变
Cluster 4:以以ATRX的单核苷酸突变+结构突变,RB1的结构突变+基因缺失,TERT单核苷酸突变+结构突变为主
d. CNS-髓母细胞瘤以TERT基因启动子(promotor)点突变为主
----------------------------------------------------------------------------------华丽的分割---------------------------------------------------------------------------------------
附图 1、工作流程
附图 2、核心算法除DKFZ、Sanger、Mutect等,常用的还有逻辑回归、决策树、随机森林和SVM
附图 3、体细胞突变类型
CNS-GBM:单核苷酸突变SNV数量级在104,插入缺失突变在102 - 103,结构突变在10 - 100,倒位易位在1 - 10
附图四、驱动突变(driver mutations,参考驱动基因)概况
A. 总体看所有肿瘤均存在驱动突变,CNS-GBM 90%以上的病例存在驱动突变
B. 发现驱动突变的敏感性(SEN),CNS-GBM 的 SEN 约 100%
C. 髓母细胞瘤各亚型中SETD2(组蛋白甲基化转移酶)基因的四个亚型分布情况
附图五、集群突变(Kataegis,Chromothripsis,Chromoplexy)举例
A. 甲状腺癌Chromoplexy,2、7、8号染色体的断裂位点
B. 胰腺癌Kataegis,集群式的点突变
C. 黑色素瘤Chromothripsis,1号染色体易位、缺失、扩增、尾尾易位、头头易位突变
附图六、集群突变Kataegis的分类
附图七、总体样本集群突变Chromothripsis相关因素及相关驱动突变概况
附图八、单个样本集群突变Chromothripsis相关因素及相关驱动突变举例
附图九、续附图八
附图十、常见的遗传突变与体细胞与便联系概况
附图十一、少见的遗传突变与体细胞与便联系概况
附图十二、遗传突变MEI集概况
附图十三、端粒酶突变分类及概况