bioInfo_seeker-CSDN博客

原创亚群注释原来这么简单

如这里选择garnett的方法，需要上传一个细胞的特征基因集，特征基因集包含两列的信息，第一列为细胞名，第二列为基因名。在注释完成后，我们需要回到基础分析中新增注释信息，把注释信息添加进入，重新进行分析。单细胞分析工具的重新修改上线，旨在更加系统简便的为大家提供更加优质的单细胞分析工具。同样的选择ssGSEA的方法，该方法是基于富集分析的方法进行的注释。首先，高级分析的任务数据，必须是从高级分析准备中创建的。

2024-05-21 17:41:09 281

原创 CCRCC+101 种机器学习算法组合+免疫原性死亡+单细胞

3、TCGA数据集ssGSEA计算ICD-score，并使用WGCNA的方法筛选关键的module基因集，同时差异分析筛选肿瘤发生相关的基因集，GO和KEGG富集分析筛选关键的功能。4、基于10种机器学习的方法构建101种机器学习算法组合构建风险模型，并择优选择c-index最佳的模型，其中在c-index相差不大的时候，基因数量越少越好，这里作者选择了lasso+逐步回归+多因素建模，并绘制KM曲线。8、风险模型的功能注释，GSE+GSVA，关键功能高低评分的KM曲线。低风险GSEA分析，和配受体分析。

2024-04-27 14:59:48 1399

原创基于单细胞RNA-seq和大量RNA-seq数据的CAF风险特征构建成纤维细胞特征风险模型

选择合适的分辨率，上传特征基因的名字，如这里做的CAF细胞，选择的是ACTA2,FAP,FDGFRB,NOTCH3这四个基因，输入的这些基因为CAF的marker基因，后面用于筛选CAF的亚群。选择去批次的方法，当然你也可以选择不去批次，如果这里选择none的话，那么结果得到的两个图片和第二步结果是一样的。如果该肿瘤有癌组织和癌旁组织，则可以选择使用ssGSEA的方法预测TCGA的每一个人关于CAF小亚群的丰度。这里需要注意，单细胞目前的数据有三种格式，如果不清楚，可以查看之前的文档。

2024-04-26 11:40:50 1329

原创多组学+机器学习+膀胱癌+分型+建模

三个亚型之间进行了差异分析，选择了每一个亚型的 top20 个上调的基因作为特征绘制基因表达热图（图D），通过这20个基因作为一个分类器，对验证集分型，并绘制KM曲线（E），通过这20个基因的分类器使用NTP的算法构建计算分类的准确性。2、模型验证中纳入了NTP，我们网站之前使用的NTP的算法，基本上是通过两两进行对比，而在这次分析中，使用三种的亚型的敏感性比较，值得借鉴，但是原文筛选特征的基因的方法是使用差异基因做的。通过合并几套数据集，去批次，通过PCA查看去批次前后的各个数据集之间的分布。

2024-04-25 09:03:42 1497

原创 B细胞异质性和三级淋巴结构的单细胞转录组测序预测乳腺癌预后和新辅助治疗效果（10分+）

这篇文章做的比较多，有点杂，小编针对这篇文章单独对分析顺序重新理一下思路：1、下载单细胞数据，常规聚类降维分析，亚群注释2、针对B细胞进行二次聚类分析，包括富集分析，重轻的基因表达说明B细胞的异质性3、轨迹分析（monocle2）揭示B细胞的分化进程说明乳腺癌的病变进程。

2024-04-24 09:17:56 785 1

原创 Rstudio使用中最容易忽视的问题

从推出linux版本的Rstudio以来已经一年，当初推这个账号，本身是为了做代码复现，为了统一解决环境问题，所以我们配备配置R环境的相关服务，这里小编简单整理一下在使用中常遇到的问题。

2024-04-23 09:46:24 1474 1

原创翻译后修饰的泛癌分析揭示了蛋白质调控的共同模式

1、泛素化是最主要的转录后修饰之一，它调节着几乎所有类型的细胞过程，泛素化酶级联将泛素分子附着在特定的亚层上，从而诱导底物降解或活性变化。2、去泛素化是指通过去泛素化酶(deubiquitination enzyme, DUBs)从底物上去除附着的泛素分子。3、人类基因组中约有100个DUB，其中泛素特异性蛋白酶(USPs)是最大的DUB亚家族，拥有近60个成员。4、越来越多的证据显示USPs在癌症中起着关键作用。

2024-04-22 10:06:19 1352

原创 pyscenic转录因子预测-强势来袭

直接之前完成亚群注释的单细胞任务队列，默认有两个，一个是seurat_cluster(聚类的结果)，一个是cell_type（亚群注释后的结果），选择tsne/umap降维的方法进行后续的可视化。该工具相比较之前R版本的快了很多，默认是选择findmark筛选各个亚群的marker基因，然后运行pyscenic，并进行可视化。具体的分析时间需要看细胞数据！之前有粉丝反馈R版本的scenic工具运行太慢了，在通过一段时间的测试，终于python版本scenic工具与大家见面了，话不多说，直接上工具。

2024-04-21 10:21:43 345

原创 1400种代谢物和肠道微生物与疾病的孟德尔随机化分析来了！！！

该工具于免疫细胞与疾病的MR类似，也是分了三步进行，话不多说，直接上工具。

2024-04-20 13:01:49 1080

原创免疫分析-免疫浸润

在生信分析中，免疫分析作为必不可少的一部分，基本上90%以上的文章都会使用到免疫分析，其中CIBERSORT,TIMER,ESTIMATE等等，使用尤多。生信豆芽菜将分析和可视化进行分开，这里对8个免疫相关的分析进行总结。这8个分析工具，需要上传的都是一个基因表达谱矩阵，其中行为基因，列为样本，行名不要重复。如果重复，可以使用去重工具去重！！！！在分析的过程中，我们会得到一个细胞丰度的比例，其实就是该样本与这个细胞的相似度，准备来说，就是这样样本中，关于这个细胞组成所占的比例有多少。

2024-04-19 10:18:02 1216

原创 101算法构建风险模型

早期在多因素建模的过程中，也是没有系数的，后来为了将基因的风险系数进行量化，所以将多因素cox分析得到的coef作为系数，进行计算相关的风险得分。这里我们是将建模的方法释放出来，在之前的分析中，由于数据分布状态的问题，导致个别算法不能运行，内存直接爆掉，程序被迫中断，为此，我们在分析时不选择该算法组合即可。而现在101算法，默认也是没有系数的，在得到特征基因后，选择用多因素cox/Logistic的得到系数，并重新计算风险得分，这也是目前很多文章中使用的方法。这也是他应用的场景所决定的。

2024-04-18 10:37:13 1265

原创如何绘制一个好看的KEGG层级图

前四列其实都很好理解，为什么会有第五列，如果你只有一个分组，可以只写一个名字，这里默认是针对A和B组做差异分析，A组的上调基因和B组的上调基因进行富集分析，得到的结果。第一列为ID的编号，第二列为该通路中基因数量，第三列为差异基因富集到该通路的数量，第四列为通路的名称，第五列为分组的名字。选择分组的颜色，网站提供了多种颜色方案，也可以点击设置，去设置自己喜欢的颜色方案，然后选择图片的宽度和高度。该图可以清晰的看出KEGG富集的通路的二级和一级分类，这样的层级图是你想要的吗？

2024-04-17 13:33:49 417

原创 TIDE分析barplot+heatmap

在分析的过程中，需要上传一个全基因的表达谱矩阵，记得记得TIDE分析需要做scale，如果你已经提前做过了scale，就不要选择做scale，如果没有做过，属于原始的表达谱矩阵，就可以选择进行scale分析！这里需要注意的是，TIDE分析的第一列是样本名，也是我们的行名，所以你在复制粘贴的时候，要查看一下，需要小小修改一下数据第一行。首先看这张图是有两个部分组成的，上侧为免疫治疗效应的评分的柱状图，下侧为免疫细胞预测的丰度的热图，热图一定要是数值！刚刚输入的颜色组块就出来了，可以自己选择自己喜欢的颜色。

2024-04-16 15:23:21 536

原创期待已久的中介孟德尔随机化终于来了

说起孟德尔随机化分析，大家都很熟悉，普通的双样本MR可以简单认为双疾病的因果关系，其实就是为了说明暴露因素和结局因素之间通过一些关键的snp产生因果关系，而中介孟德尔随机化分析，就是引入一个第三个因素如下：通过两步MR分析完成两步MR的主要目的是探讨中介变量（mediator）是否能介导暴露对结局影响，一般适用于寻找从暴露到结局的潜在发生机制。一般而言，在进行两步MR分析之前，我们已经获取了暴露对结局的因果效应（假设其为c）。

2024-04-15 10:39:28 4308

原创基于中性粒细胞胞外陷阱的泛癌预后特征终于来了（一个10+文章完美复现）

导入数据后，选择p的阈值，这里我现在的是0.05，选择是否进行lasso分析，是否进行逐步回归，如果单因素cox分析p小于0.05的基因比较少，可以选择不做lasso和逐步回归，一般默认构建模型的基因不要10个以内，或者不要超过15个，基因太多了，不利于后期验证。绘制AUC的时候需要输入时间，默认这里写的是3年的，可以按照自己的需求写，需要输入四个颜色，是AUC的颜色（训练集nom的颜色，训练集风险得分的颜色，验证集nom的颜色，验证集风险得分的颜色）通过ssGSEA的方法，基于已有的基因集计算样本评分。

2024-04-14 10:37:51 1025

bioInfo_seeker的博客