今天给同学们分享一篇生信文章“Analysis and Experimental Validation of Rheumatoid Arthritis Innate Immunity Gene CYFIP2 and Pan-Cancer”,这篇文章发表在Front Immunol期刊上,影响因子为7.3。
结果解读:
DEG筛选和数据预处理
数据在箱线图中进行了标准化,不同的颜色代表不同的数据集,行代表样本,列代表样本中的基因表达值(图1A)。图1B展示了批次去除前多个数据集的PCA结果,不同的颜色代表不同的数据集。如图所示,三个数据集分别分开,没有任何交集。图1C展示了批次去除后的PCA结果图。如图所示,三个数据集的交集可以作为后续分析的一批数据。根据P-adjustment <0.05和log2 fold-change (FC) | >0.5的标准,鉴定出了891个差异表达基因(DEGs),其中427个基因上调,464个基因下调。图1D展示了DEGs的火山图以及前50个基因的热图(图1E)。
DEGs功能富集分析
所有DEG在功能上都得到了富集,根据p<0.05,GOCircle图中显示了15个GO关键词。研究结果表明,生物过程(BP)富集主要与阳性细胞-细胞粘附调节、T细胞活化、淋巴细胞分化和细胞-细胞黏附调节有关。富集分子功能(MF)与细胞因子受体结合、细胞因子结合和细胞因子受体活性有关。细胞成分(CC)富集与质膜外侧、膜筏和膜微区有关。在KEGG分析中,造血细胞谱系、人类T细胞白血病病毒1型感染、Th1和Th2细胞分化以及趋化因子信号通路是相关的。
加权基因共表达网络构建
从GEO数据中检索到GSE1919和GSE55457数据集,并选择了15个正常样本和18个RA样本来对样本进行聚类,并通过设置阈值来排除明显异常的样本,如图2A所示。然后,如图2B所示,当R > 0.9且平均连接性较高时,作者将软阈值设置为7。通过使用0.25的聚类高度限制合并强相关的模块(图2C),共鉴定出24个模块进行进一步研究。最终,在聚类树下显示了经过调整和合并的模块(图2D)。接下来,对模块之间的相关性进行了检查,结果显示它们之间没有显著的关联(图2E)。通过模块内的转录相关性分析证明了模块划分的可靠性,结果显示模块之间没有实质性的联系(图2F)。使用ME值和临床特征之间的前额相关性来研究模块与临床症状之间的关联。蓝色模块与正常样本呈正相关(r = 0.79, p = 5e−08),与RA样本呈负相关(r = −0.79, p = 5e−0)。8),而蓝绿色模块与正常情况呈负相关(r = 0.8,p = 3e−08),与