今天和大家分享一篇于2022年4月发表在Pharmacological Research 上的基于脂质代谢相关8基因构建预后模型预测结肠腺癌患者预后的文章"In silico development and clinical validation of novel 8 gene signature based on lipid metabolism related genes in colon adenocarcinoma"
作者首先利用脂质代谢相关基因鉴定3种分子亚型,然后利用WGCAN分别识别出与3种脂质代谢相关亚型相关度高的基因,用于构建预后模型并基于风险值将结肠腺癌患者进行分层,随后探索了不同组间患者的分子特征八个基因的基因组改变景观。文章整体结构清晰,逻辑完整,我们一起来学习一下吧~
1
研究背景
CRC
●结肠癌发病率,死亡率高,常规的手术放化疗疗效不能达到预期,复发转移率高,生存期短
●近年流行病学发现,动物脂肪摄入增加提高了患结肠癌的风险
●脂质代谢改变是多种恶性肿瘤的标志性特征
●小鼠血清含有过量的脂肪因子和细胞因子,可能促进结直肠癌细胞的恶性表型。大肠癌患者血清、肿瘤和脂肪组织中脂质的含量和组成发生了显著变化
●研究表明脂质代谢障碍可能会促进炎症反应,进而促进大肠癌的发展
●研究已证实一些脂质和代谢酶和代谢物促进了肿瘤的恶性进展,单酰基甘油脂肪酶(MAGL)抑制剂JZL184可以促进结肠癌细胞凋亡并显著抑制转移
●脂质在结肠癌细胞代谢中发挥重要作用,关键的脂质代谢酶或途径可能是结肠癌治疗的预后标志物和潜在治疗靶点。
2
数据来源及流程图
●训练队列:TCGA-COAD训练集
●验证队列:TCGA-COAD验证集,TCGA-COAD,GSE17538, GSE17536
●脂质代谢相关基因:从分子特征数据库MSigDB下载
3
结果简述
1.NMF算法识别分子亚型
从分子特征数据库MSigDB下载人类脂质代谢途径,并从脂质代谢途径中筛选出776个与脂质代谢相关的基因.
单因素Cox分析,获得了115个与结肠癌预后相关的基因(p<0.05)
图B显示,在亚型数目为4时,cophenetic开始下降。作者最终选择数目为3
图C脂质代谢相关基因热图显示,C1和C2基因的表达高于C3。
图D显示,C3亚组的预后优于C1和C2亚组
2,WGCNA分析与功能模块识别
通过图A,图B,作者将β设为6
C1、C2和C3亚型显著相关的模块为棕色、蓝色和红色。棕色模块包含936个基因,蓝色1404个基因,红色399个基因,三个模块合并后总共包含2739个基因
图E为brown模块GO富集分析结果
图F为brown模块KEGG富集分析结果
图G为blue模块GO富集分析结果
图H为blue模块KEGG富集分析结果
3.风险预测模型的构建
单变量Cox比例风险回归模型。
选择p<0.01作为筛选阈值,并鉴定出127个差异显著的基因
Lasso-Cox回归分析,当lambda=0.06时,该模型是最优的。因此,选择了18个基因作为靶基因。
多变量Cox分析,保留AIC最低的8个mRNA(AIC=651.32)以建立最终模型
RiskScore=−0.14441*expFAM69A-0.07001*expFBXL5+0.08274*expFYN+
0.20266*expHEYL-0.01063*expHMGN2-
0.00149*expLGALS4+0.11338*expRTN-20.18823*expSTOX1
模型性能评价:
图C显示,高风险分数样本的死亡比例显著高于低风险分数样本,RTN2,FYN,HEYL在高风险组表达较高,FAM69A,FBXL5,STOX1,HMGN2,LGALS4在第风险组表达较高
图D显示,该模型具有较高的AUC面积,5年时为0.85
图E显示,KM曲线发现两组之间预后存在显著差异(p<0.0001
4.不同队列中验证预测模型的稳健性
在内部测试集、所有TCGA数据集和独立验证数据集GSE17538和GSE17536中根据表达水平计算每个样本的风险分数,并绘制样本的风险分数分布,如图A、D、G、J所示。可以看出,风险分数高的样本的死亡比例显著高于风险分数低的样本,基因表达量分布于训练集抑制
图B显示,在测试队列中,1年、3年和5年的ROC分别为0.68、0.63和0.63在图E显示,在所有TCGA数据集中,1年、3年和5年的ROC分别为0.72、0.73和0.78
图H显示,在GSE17538队列中,1年、3年和5年的ROC分别为0.72、0.60和0.66
图K显示,在GSE17536队列中,1年、3年和5年的ROC分别为0.72、0.61和0.64
图C、F、I、L显示,在所有队列中,高风险评分组和低风险评分组之间存在显著的预后差异
5.高低风险组间肿瘤微环境评分
图A显示,在整个TCGA数据集中,StromalScore、ImmuneScore和ESTIMATEScore中的高风险和低风险样本存在显著差异。
图B,C显示,在两个独立验证数据集GSE17538和GSE7536中,StromalScore、ImmuneScore和ESTIMATEScore也存在显著差异
6.风险模型和临床特征分析
根据8基因特征风险评分对临床亚组进行了生存分析。结果表明,8基因标记可以显著区分I+II期、III+IV期、T 3+T 4期、M0期、M1期、年龄>65岁、年龄<=65岁、男性、女性、淋巴管浸润和静脉浸润的患者。这进一步表明,模型保留了预测不同临床症状的强大能力。
7. 8-mRNAsignature的单变量和多变量分析
在TCGA数据集中,单变量Cox回归分析表明,T、N、M、I/II期与III/IV期、淋巴浸润是与否、静脉浸润是与否以及风险评分与生存率显著相关。然而,在多变量分析中,只有风险评分(HR=3.07,95%可信区间=[1.8597–5.0827],p=1.2E-05)、M期和静脉侵犯与生存率显著相关。
这些结果表明,8基因signature可以作为预测结肠癌患者预后的独立危险因素
8. 风险评分与通路之间的关系
使用R包GSVA进行单样本GSEA分析。计算每个样本不同功能的得分,以获得每个样本对应的每个功能的ssGSEA得分,然后进一步评估这些功能与风险得分之间的相关性。
图7A显示相关性大于0.5的通路,其中10个与风险评分呈正相关,12个与风险评分呈负相关。
选择20条相关性较大的KEGG途径,根据其富集分数进行聚类分析,如图7B所示。
9. 风险模型与其他模型的比较
选择了4个预后风险模型,15个基因、18个基因、13个基因和12基因signature,与8基因模型进行比较。
图7C、D、E、F显示,这4种模型在1年、3年和5年时的AUC均低于8基因模型。不同队列中高风险组和低风险组之间的预后也存在显著差异
10. 8个基因表达模式的临床验证
RTN2在3项结肠癌研究中高表达(图8A),LGALS4在12项结肠癌研究中表达差且显著(图B),FYN在4项结肠癌研究中表达差(图C),FAM69A在结肠癌中表达不显著(图D),HMGN2在1项结肠癌研究中表达差(图E),FBXL5在2项结肠癌研究(图F)中表达显著较差,HEYL在4项结肠癌研究(图G)中表达较高,STOX1在6项结肠癌研究(图H)中表达较高。
31例COAD组织和正常配对样本的免疫组织化学结果显示,RTN2、HEYL、STOX1在癌组织中显著高表达,LGALS4、FBXL5、HMGN2、FAM69A和FYN在邻近正常组织中显著高表达(图I-P)
免疫组织化学中可视化基因表达(图8Q-X)。
TCGA-COAD队列用于基因表达验证(图8Y)。结果与实验基本一致。
11. 8个基因的全基因组分析
使用GSCALite数据库对8个基因进行了全基因组分析
图A显示,STOX1的突变频率最高,其次是FYN和RETN2,而HMGN2的突变频率最低(图9A)
图B显示,HEYL和FAM69A的甲基化上调,而STOX1在COAD中下调
图C显示,基因的mRNA表达与CNV的百分比显著相关(FDR<=0.05)。COAD中HEYL、FBXL5、FAM69A和LGALS4的表达与CNV显著正相关。这些CNV高频率的基因在基因表达上也表现出一致的趋势。此外,在大多数癌症中,HEYL和FBXL5与CNV呈正相关。
图D显示,STOX1和HEYL的表达与大多数药物呈负相关,而FBXL5与Austocystin D 和 bafilomycin呈正相关,后者在抗肿瘤和免疫治疗中起着重要作用
图E显示,通路活性研究发现,HEYL、FYN、FAM69A和RTN2与EMT通路激活显著相关,LGALS4和STOX1与EMT通路抑制显著相关,HMGN2显著激活细胞周期和凋亡通路。
4
小结
1,正常细胞转化为恶性细胞的过程中伴随着多种生物学特性,其中代谢重编程是最突出的一种,包括糖酵解、谷氨酸依赖性合成代谢和异常脂质生成。结肠癌已被确定为糖酵解增强型恶性肿瘤,但流行病学研究表明,肥胖和高脂肪饮食是结肠癌的重要危险因素。
2,本研究首先使用基于脂质代谢相关基因的非负矩阵分解算法确定了结肠癌的三个亚型。
WGCNA用于鉴定共表达基因和模块,获得了与癌症发生发展密切相关的2739个功能基因
Lasso和多变量Cox分析构建了8基因特征,并表明该特征在不同数据集具有稳定的预测性能,并且与临床病理学和免疫评分显著相关。
偷偷告诉你,我们在B站还有优质文章分享视频哦~
往期精品(点击图片直达文字对应教程)
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集