8+双疾病联合生信分析搭配机器学习+实验

今天给同学们分享一篇双疾病+机器学习+实验的生信文章“Screening of immune-related secretory proteins linking chronic kidney disease with calcific aortic valve disease based on comprehensive bioinformatics analysis and machine learning”,这篇文章于2023年1月1日发表在J Transl Med期刊上,影响因子为8.44。

427fcac979c75dcd70577bed8083df45.jpeg

慢性肾脏疾病(CKD)是最重要的心血管风险因素之一,在钙化主动脉瓣病(CAVD)等各种心血管疾病的发病机制中起着重要作用。作者的目标是探索与CKD相关的基因,可能涉及CAVD的发病机制,并发现CKD合并CAVD的诊断候选生物标志物。


1. 数据处理

生物信息学分析策略如图1所示进行。从GEO数据库中收集了钙化和对照主动脉瓣样本的三个原始数据集,并在进行批次效应去除后进行了合并。批次校正后,得到了整合的CAVD数据集,并进行了归一化处理,其中CAVD组包括34个钙化样本,对照组包括23个对照样本。如图2A和B所示,在批次效应去除后,三个数据集之间的差异显著减少。

c3b971bdce671d1a18f7330a55f7a4fb.jpeg

图1 本研究设计的流程图

966af799295ae38920580f54085abad3.jpeg

图2 CAVD数据集的整合和整合CAVD数据集的差异表达分析


2. 钙化主动脉瓣病中不同表达基因的鉴定

综合钙化和对照主动脉瓣样本之间的差异分析显示,共有173个差异表达基因(DEGs),其截断标准为调整后的p值≤0.05且|log2(折叠变化)|≥1,其中包含119个上调基因和54个下调基因。通过火山图和热图来描述综合CAVD数据集中DEGs的表达模式(图2C和D)。


3. CAVD中加权基因共表达网络的构建和关键模块的识别

为了进一步探索CAVD中的关键基因,作者进行了加权基因共表达网络分析(WGCNA),以确定钙化主动脉瓣样本中最相关的基因模块。根据尺度独立性和平均连接性,选择了软阈值为5(图3A)。使用该阈值生成了14个模块,并在图3B中呈现了模块的聚类树状图。模块特征基因的聚类显示在图3C中。此外,本研究还探讨了C

GEO(Gene Expression Omnibus)是一个公共数据库,存储了各种物种的表达谱数据和相关信息。在生物信息学中,通过研究GEO数据可以识别基因表达模式和相关通路,从而对疾病发生机制进行研究。而合并代码是指将来自GEO的多个数据集合并起来进行进一步分析和比较。 生信自学网提供了合并GEO数据集的代码示例,这个代码主要基于R语言中的Bioconductor包。首先,需要导入所需的R包,如GEOquery和limma等,这些包可以通过install.packages()函数进行安装。 接下来,通过GEOquery包中的getGEO()函数读取GEO数据集。可以通过在函数中指定GEO编号或GEO查询词,来获取GEO数据集的信息。然后,使用exprs()函数提取数据集的表达矩阵。 接下来就是数据的处理和整合。如果从GEO获取的数据集有多个,需要进行合并。可以使用cbind()函数将不同数据集的表达矩阵按列合并,或使用rbind()函数按行合并。合并后的数据集可以进行进一步的数据预处理,如去除低表达的基因和对数据进行标准化等。 最后,可以使用rankProd包和limma包等进行差异分析和富集分析等进一步的生物信息学分析。这些分析可以帮助我们发现不同基因表达的模式,从而进一步研究相关通路和疾病机制。 通过生信自学网提供的GEO合并代码示例,我们可以方便地将来自GEO的数据集进行合并和分析,从而深入研究基因表达的模式和生物学机制。这对于疾病的研究以及药物研发等方面具有重要的意义。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信风暴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值