GSEA分析详细步骤

GSEA分组分析


这段时间有空为了某人学习了一下不属于我的领域的东西——GSEA分析(基因富文本分析),下面总结最近所学GSEA分析的步骤及方法。

1. 根据基因文件进行处理筛选

对于已有的基因文件,一般是xslx或者是csv格式(不要问基因文件哪来的,外行人的我猜测应该是可以从某某网站下载),而这个文件一般排序都是乱的且只有一列,所以这个时候就要进行分列并排序了。如图为基因文件原始格式:

在这里插入图片描述

接下来进行分列操作

  • 因为数据全部都在第一列,所以选中整个第一列
  • 点击数据-分列
  • 弹出分列窗口之后点击下一步,然后这里根据表格的形式选择对应的分隔符号,我这里选择Tab键就可以了,点击下一步,然后点击完成

接下来根据你需要分析的基因进行表达量大小的排序:

  • 选中你需要分析的基因那一列,这里我以HEATR1基因为例
  • 然后点击数据-排序
  • 确定选择扩展选定区域选项
  • 点击排序即可

接下来进行数据转置操作:

因为此时的数据行和列是反的,不利于我们进行GSEA分析,因此需要进行转置。

  • 新建一个空白表格
  • 复制刚刚分列的表格内的全部内容
  • 在空白表格以转置的格式粘贴

如图即为分列-排序-转置后的表格,瞬间清爽许多。

在这里插入图片描述

至此已经完成一半了,继续往下看。

2. 文件内容补充及改名

  • 因为步骤1所得到的文件GSEA软件并不能识别,为了能让GSEA软件识别,需要在表格第一行增添2空白行

  • 同样还需要在第二列增添一列空白列,完成行和列增添后的表格如图所示

    在这里插入图片描述

  • 接着按照如下格式在空白行、空白列中增添内容。这里解释一下12197代表的是表格的每行的基因个数(行基因数),30表示每列的样本个数(列样本数)。#1.2是固定格式。然后在第二列也就是30下面填入Description,Description下面填入NA,这也是固定格式。

    在这里插入图片描述

  • 接下来对以上文件进行保存,选择另存为,保存类型一定要选择文本文件(制表符分隔)(*.txt),文件名则切换输入法为英文,然后在文件名里面先输入双引号,双引号里面填你需要的名字并加上.gct。比如我甜的格式就是:

    "cell_heatr1_high_low_gct.gct"
    

    (命名的时候尽量都用下划线_而尽量少用中划线-,因为有些编程语言不识别中划线,而下划线基本都可以被识别。还有的人也许喜欢选择保存类型之后就随便的命名然后直接更改文件的后缀,这种方法大概率在后期文件导入到GSEA软件时会出现导入失败,尽量别用这种方法)
    在这里插入图片描述

  • 至此,GSEA所需的gct文件就已经完成了。接下来制作cls表型文件,制作格式如下图所示:

    在这里插入图片描述

    这里解释一下,在你对HEATR1基因的30个样本排序之后,你需要自己设置一个表达量的阈值,高于这个阈值的则为高表达,低于这个阈值的则为低表达,这也就是cls表型文件最下面的名称的由来

  • 最后另存为,保存类型一定要选择文本文件(制表符分隔)(*.txt),文件名则切换输入法为英文,然后在文件名里面先输入双引号,双引号里面填你需要的名字并加上.cls。比如我甜的格式就是:

    "cell_heatr1_high_low_cls.cls"
    

3. GSEA软件使用

  • 首先导入文件,点击左上角的Load data

  • 导入方式有三种,一般按照喜好自己选择,这里我使用方式1,点击Browse for files,选择之前制作好的gct文件和cls文件,导入成功如下图所示:

    在这里插入图片描述

  • 接着点击左上角的Run GSEA,在弹出的窗口中,首先选择表达数据集Expression dataset,可以看到只有我们导入的gct文件,所以选择它即可

  • 然后选择基因背景文件Gene sets dataset,我这里以kegg通路演示,具体根据你的需要来选择。

    在这里插入图片描述

  • 然后是置换检验的步数Number of permutations,默认选择1000,一般不进行修改,需要改的话根据你的需求自己改

  • 接下来选择表型文件Phenotype labels,表型文件直接选择刚刚导入的即可,第3步选择分组对比,这里随便选一个即可,比如我选了Low分组,那么我后期得到的正向通路就会和Low基因比较正相关。

在这里插入图片描述

  • 接下来选择是否要将基因转换为gene symbols格式,这里选择不转换

    在这里插入图片描述

  • 接下来选择置换检验的类型,一般样本量比较少时选择gene_set,该选项会影响结果的p值,所以选的时候注意一下
    在这里插入图片描述

  • 接下来是芯片平台Chip platform选择,因为我们不转换gene symbols文件,因此这里可以不要选择,如果要转化则要选择。该参数主要用来选择gene symbol与探针、或者gene ID相互对应的注释文件,当上边Collapse dataset to symbols参数设置不是No_Collapse时,此参数必须选择。这里,我们输入为gene symbol,因此不选

  • 最后是基本设置,具体设置见下图

    在这里插入图片描述

  • 最后点击最下面绿色的箭头run即可,最终结果就会在刚刚设置的文件路径下。如图所示

    在这里插入图片描述

GSEA单基因分析

单基因分析步骤和分组基因步骤不同的地方就两点,其余的步骤参考分组分析。

  • 基因表型文件Phenotype labels设置不同,具体操作见图片

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    至此,这里就设置好了

  • 接下来是第二处不同,也就是基因排序参数的修改,一般选择pearson,代表是基于其他基因与该基因的相关系数大小排序。(如有需要可自行更改其它排序方法)

    在这里插入图片描述

  • 接下来是第二处不同,也就是基因排序参数的修改,一般选择pearson,代表是基于其他基因与该基因的相关系数大小排序。(如有需要可自行更改其它排序方法)

  • 别的地方和分组分析都一样,设置完之后运行即可


https://www.bilibili.com/video/BV1CM4y1G7A3?from=search&seid=18177858094065419746&spm_id_from=333.337.0.0

好的,下面是使用GSE85716数据进行GSEA分析的基本步骤: 1. 下载数据 首先,您需要下载GSE85716数据集。您可以在GEO数据库中找到该数据集并下载相应的CEL文件。然后,您可以使用R语言中的affy包读取CEL文件并进行预处理,例如背景校正、归一化等等。 2. 进行差异表达分析 接下来,您需要进行差异表达分析,以确定哪些基因在不同条件下表达水平有显著差异。您可以使用一些常见的生物信息学工具和软件来进行差异表达分析,例如DESeq2、edgeR、limma等等。 3. 进行GSEA分析 在进行GSEA分析之前,您需要准备一个基因集合,例如KEGG、GO等等。您可以使用一些公共数据库中的基因集合,例如MSigDB等等。然后,您可以使用一些生物信息学工具和软件进行GSEA分析,例如GSEA、fgsea等等。 在这里,我以GSEA软件为例,向您介绍一下如何进行GSEA分析。首先,您需要将差异表达分析的结果转化为GSEA所需的格式,即将基因按照表达水平的大小进行排序,然后将每个基因标注为“上调”或“下调”。您可以使用fgsea包中的gmtToList函数将基因集合转化为列表形式,然后使用fgsea包中的fgsea函数进行GSEA分析。以下是示例代码: ```R library(fgsea) # 读取差异表达分析结果 result <- read.csv("DESeq2_result.csv", header=TRUE, row.names=1) # 选出显著差异的基因 sig_genes <- subset(result, padj<0.05) # 将基因按照表达水平排序 ranked_genes <- sort(sig_genes$log2FoldChange, decreasing=TRUE) # 将上调和下调基因标注 up_down <- ifelse(sig_genes$log2FoldChange>0, "up", "down") # 读取基因集合 gmt_file <- system.file("extdata", "c2.cp.kegg.v7.1.symbols.gmt", package="fgsea") gene_sets <- gmtToList(gmt_file) # 进行GSEA分析 res <- fgsea(gene_sets, ranked_genes, up_down, nperm=1000) # 提取显著富集的基因集合 top_sets <- subset(res, padj<0.05) ``` 在上述代码中,我们使用了KEGG数据库中的基因集合,使用gmtToList函数将其转化为列表形式。然后,我们将差异表达分析得到的基因按照表达水平的大小进行排序,并将上调和下调基因标注。最后,我们使用fgsea函数进行GSEA分析,并提取显著富集的基因集合(padj<0.05)。 4. 确定mrna和lncrna 在GSEA分析得到的富集基因集合中,您可以根据基因的注释信息确定mrna和lncrna。例如,您可以使用biomaRt包中的getBM函数获取基因的注释信息,然后根据基因类型进行筛选。以下是示例代码: ```R library(biomaRt) # 获取基因注释信息 mart <- useMart("ensembl", dataset="hsapiens_gene_ensembl") genes <- rownames(top_sets) annot <- getBM(attributes=c("ensembl_gene_id", "type_of_gene"), filters="ensembl_gene_id", values=genes, mart=mart) # 筛选mrna和lncrna mrna <- annot[annot$type_of_gene=="protein_coding", "ensembl_gene_id"] lncrna <- annot[annot$type_of_gene=="lncRNA", "ensembl_gene_id"] ``` 在上述代码中,我们使用biomaRt包连接Ensembl数据库,并使用getBM函数获取基因的注释信息。然后,我们根据基因类型将mrna和lncrna筛选出来。 以上就是使用GSE85716数据进行GSEA分析,确定mrna和lncrna的基本步骤。如果您有其他问题或需要更详细的帮助,请随时告诉我。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值