R语言 | GEO数据库下载GSE基因芯片以及表达矩阵和临床信息的提取

LN生物笔记

已于 2023-02-13 15:09:35 修改

阅读量1.2w

点赞数 9

分类专栏： R语言 GEO 文章标签： r语言开发语言

于 2022-11-30 15:07:10 首次发布

本文链接：https://blog.csdn.net/tianyuu1/article/details/128114911

版权

R语言同时被 2 个专栏收录

10 篇文章

订阅专栏

GEO

5 篇文章

订阅专栏

1.载入R包

2.利用AnnoProbe下载GEO数据库中的数据

3.提取表达矩阵和临床信息

4.输出文件

1.获得GEO数据库中的数据

下面以GSE14520数据系为例：

获得GEO数据库中的数据总体上分为两种办法：1.从GEO数据库中下载；2.用R包下载

（1）从GEO数据库中下载

进入GEO网站，找到对应的Series Matrix File(s)即表达矩阵进行下载，保存到本地进行加载。

在R中打开,由于read.table之后的表达矩阵与getGEO之后的有一定出入，需要处理一下。

a1<-read.table("GSE76275_series_matrix.txt.gz",sep="\t",quote = "",
               fill=T,comment.char = "!",header=T)
rownames(a1)<-a1[,1] #把第一列的值变为行名
a1<-a1[,-1]

（2）用R包下载

用R包下载GSE芯片数据有两种方法：使用AnnoProbe包或者GEOquery包

方法一：利用AnnoProbe包

gset=AnnoProbe::geoChina('GSE14520')

tips：AnnoProbe包只能用于下载GEO中的arry数据，无法下载RNAseq类型的GSE。如果下载的GSE是RNAseq类型，AnnoProbe会报错。

方法二：利用GEOquery包中的getGEO函数

gset <- getGEO("GSE14520",
               GSEMatrix =TRUE
               AnnotGPL=TRUE ,)

AnnotGPL：关于是否使用注释GPL信息默认为False的布尔值。这些文件很好用，因为它们包含定期从Entrez Gene重新映射的最新信息。但是，它们并不适用于所有GPLS；通常，它们仅适用于GDS引用的GPLs。所以有时候我们需要单独下载处理，其实就是用于探针注释。

GSEMatrix：告知GEO查询是否使用GEO中的GSE系列矩阵文件的布尔值。

2.提取表达矩阵和临床信息

exprSet <- data.frame(exprs(gset[[1]]))  #exprs用于提取表达矩阵信息
pdata<-pData(exp)  #pData用于提取临床信息

gset[[1]] 的意思是，从gset这个对象中提取第一列数据。也就是提取了下图中$GSE16956_series_matrix.txt.... 这一列的数据

[[ ]]这个语法有点类似于$，都是用来提取串列的。只不过[[]]可以提取list，而$只能提取dataframe

注意：

如果你的GSE只有一个GPL，那么从gset中就仅含有一列数据，也就是说gset[[1]]就能把这个GSE所有的数据提取出来。

但如果你的GSE只有两个GPL，那么从gset中就有两列数据，gset[[1]]只能提取该GSE中一个GPL，不注意这点就会遗漏掉另一个GPL的数据。所以，这种情况要使用两行代码分别提取两个GLP的数据。

expMatrix1 <- exprs(gset[[1]])#提取第一个平台的表达矩阵
expMatrix2 <- exprs(gset[[2]])#提取第二个平台的表达矩阵
expMatrix <- cbind(expMatrix1, expMatrix2)#两个表达矩阵合并为一个总矩阵
pdata1 <- pData(gset[[2]])#提取第一个平台的临床数据
pdata2 <- pData(gset[[1]])#提取第二个平台的临床数据

那么如何判断你下载的这个GSE是有几个GPL呢？很简单，如果包含了两个或者多个GPL，你可以在RStudio右上角的环境变量中的”gset“后面的括号里看到”2 elements“的字样

如果只含有一个GPL，则不会显示括号，仅显示”Large ExpressionSet“的字样

或者你也可以通过View(gset)语法来查看：

3.输出文件

最后将数据框输出为csv文件，这个时候如果直接用write.table()函数的话，会造成列名左移的情况，解决办法参见我之前的文章(9条消息) R语言 | 导出数据框，会出现第一行左移一位的问题，解决办法如下_tianyuu1的博客-CSDN博客https://blog.csdn.net/tianyuu1/article/details/128105158

更多教学请关注：

👉🏻公众号：LN生物笔记👈🏻

👉🏻知乎：小宇👈🏻