[论文笔记][nature medicine]The consensus molecular subtypes of colorectal cancer

一些缩写

colorectal cancer (CRC)结肠直肠癌.
consensus molecular subtypes (CMS) 共识分子亚型

本文概述

首先弄了六个独立的CRC分型算法。(用了不同的数据集和分析方法)。这样每个sample就有六个方法得到的六钟分型标签。六钟方法分别有5,6,3,3,5,5中分型,一共是27种。

然后用了一个网络方法来分析6中分型算法的联系:上述27中分型作为图的节点,有权边的值是Jaccard similarity coefficients。 用一个Markov cluster (MCL) 算法来做聚类,最后得到四种共识分子亚型(CMS)(P<0.001)。所有样本中有78%可以分在这四种亚型(称这些样本为core consensus samples, 核心共识样本),剩下的不行,可能是原发性肿瘤。

然后用以上核心共识样本的CMS标签,开发分类框架。用aggregated gene expression data. 训练集和验证集五五开,训练集是500个均衡的bootstraps。分类器是随机森林。在个数据集各方各面都能达到90%以上的均衡准确率,说明方法可移植,且CMS跨数据集。

然后进行了一些生物学、医学分析。

第8页Online methods开始详细讲到底是怎么做的。

数据预处理

第9页Gene expression data processing and normalization专门讲了数据的预处理。

来自基因表达综合系统(补充表3)的CRC肿瘤样本的T h p u bl c l y av a i标记数据集使用稳健多阵列平均(RMA)方法进行归一化,如affy软件包39中实现的。GSE14333和GSE17536中的重叠样本被排除在GSE14333之外。
为了进行共识网络分析和训练共识子类型分类器,所有私人和公共Affymetrix数据集使用单样本冻结RMA方法33进行重归一化,该方法在R/Bioconductor的“frma”包中实现
我们用安捷伦全基因组微阵列(Agilent, Santa Clara)分析了一些CRC肿瘤组。将样本与普通CRC参考池杂交,并使用黄土和局部背景差(“limma”软件包)对全基因组数据进行归一化。关于样品处理和微阵列分析的详细信息见参考文献3。从TCGA数据门户网站下载结肠和直肠3级TCGA RNA-seq数据(2014年1月)。对rsem归一化的data40进行进一步的对数变换,去除非肿瘤样本。主成分分析(PCA)显示直肠和结肠样本之间没有明显差异(数据未显示),样本未经调整合并。PCA显示了基因组分析仪(GA)和HiSeq样本之间的强分离,并使用ComBat方法进行了批量校正32。另外,我们使用两种方法对每个数据集进行离群样本检测:一种是基于PCA的方法,另一种是使用“arrayQualityMetrics”R package41。对于PCA方法,我们考虑了前两个主成分,并将所有距离大于2.5的样本标记为潜在的离群值。接下来,我们使用arrayQualityMetrics在两两样本距离、基因表达值分布和MA图(基于agilent的表达数据集没有研究MA图)的基础上标记离群值。总的来说,如果一个样本根据基因表达值的分布以及与其他样本或与PCA标准的成对距离被标记,则该样本被归类为离群值。在进一步分析中剔除了异常值。

自己总结:
移除重复数据
第二段不太明白,说hybridized了一些sample,基因组数据的normalized。说详情见ref.3

第三段说PCA was batch-corrected using the ComBat method.

数据集归一化方法软件包
Gene Expression Omnibusthe robust multi-array average (RMA) method‘affy’ package39
Affymetrix data setsthe single-sample frozen RMA method33‘frma’ package for R/Bioconductor
第二段的全基因组loess and local background subtraction‘limma’ package
(TCGA) Level 3 TCGA RNA-seq data for colon and rectalRSEM-normalized + log-transformed + remove non-tumor samplesnot mentioned
all datasetsPCA + arrayQualityMetrics for outlier sample detection (离群样本检测)

6种聚类方法

在第八页:
Group A,B,C,D,E
在这里插入图片描述
Group A: Hierarchical cluster
Group B: Hierarchical cluster
Group C: not mentioned
Group D: consensus clustering。 没详细说
Group E: non-negative matrix factorization (NMF)-based consensus37 clustering
Group F: iterative non-negative matrix factorization (iNMF)

R包:CMSclassifier

根据以下链接,
https://github.com/Sage-Bionetworks/CMSclassifier
该R包的安装方式如下:

library(devtools)
install_github("Sage-Bionetworks/CMSclassifier")
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值