SE | 哇哦!让人不断感叹真香的数据格式!~

文章介绍了SummarizedExperiment类在基因表达数据分析中的应用,包括其结构如assay(),colData(),rowData()等组件,以及如何通过R包进行操作,如读取、查看样本信息、表达矩阵和基因坐标等。文章提供了创建和处理SummarizedExperiment对象的示例,并鼓励读者通过实践来熟悉这一格式。
摘要由CSDN通过智能技术生成

1写在前面

最近在用的包经常涉及到SummarizedExperiment格式的文件,不知道大家有没有遇到过。🤒

一开始觉得这种格式真麻烦,后面搞懂了之后发现真是香啊,爱不释手!~😜

2什么是SummarizedExperiment

这种class主要包括了以下几个内容:👇

  • assay(), 包含一个或多个矩阵, 如 为基因名, 为样本;
  • colData(), 对 的注释,格式为 DataFrame, 如样本信息的描述;
  • rowData() 和(或) rowRanges(), 对 的注释,如 rowRanges()描述基因坐标, rowData()描述每个基因差异分析后的 logFCpvalue;
  • metadata(), 描述整个 objectlist;

alt

3用到的包

rm(list = ls())
library(SummarizedExperiment)
library(tidyverse)
library(RColorBrewer)
library(airway)
library(edgeR)

4处理SummarizedExperiment对象

4.1 示例数据

这里我们用到airway包内的示例数据,讲解一下如何操作。🧐
这个data的基本研究设计是,用地塞米松处理人气道平滑肌细胞后进行RNA-seq。🤠

data(airway, package="airway")
se <- airway
se
alt

4.2 查看colData

colData包含了样本或表型信息,返回的格式为DataFrame。🥰

colData(se)
alt

4.3 提取colData的指定列

se$cell
alt

4.4 查看列名和行名

我们看一下名和名。😉

colnames(se)
alt

head(rownames(se))
alt

4.5 查看表达矩阵名

assayNames(se)
alt

4.6 查看表达矩阵

一个SummarizedExperiment格式的object是可以包含多个assay的。

assays(se)
alt

4.7 查看指定assay

head(assay(se, "counts"))
alt

4.8 rowRanges或granges

接下里是重中之重了,SummarizedExperiment允许代表不同特征的rowRanges (或granges)数据。🤩

length(rowRanges(se))
alt

dim(se)
alt

这里我们可以看到特征对应了很多注释信息,这样我们在操作的时候就更加方便调取了。🤩

rowRanges(se)
alt

4.9 获取start信息

start(rowRanges(se))
alt

对于这种IRanges 对象, 你也可以直接使用start()函数获取,其他常见的函数还有endwidth。🤩

start(se)
alt

4.10 提取制定对象

如果我们只想获取制定条件下的SummarizedExperiment对象,可以用subsetByOverlaps()函数,或者直接使用GRanges[List]。🤓

gr <- GRanges(seqnames = "1", ranges = IRanges(start = 1, end = 10^7))

subsetByOverlaps(airway, gr)
alt

5手动创建SummarizedExperiment

5.1 读入数据

这里我准备了样本数据和counts矩阵两个文件,大家跟着我一起试一下吧。

pdata <- read.csv("./SummarizedExperiment/airway-sample-sheet.csv") 
counts <- read.csv("./SummarizedExperiment/airway-read-counts.csv")

5.2 整理数据并创建SummarizedExperiment

pdata <- column_to_rownames(pdata, "Run")
counts <- column_to_rownames(counts, "Run")
se_juan <- SummarizedExperiment(t(counts), colData = pdata, rowRanges = )
se_juan
alt

5.3 准备rowData

我们再试着把rowData加进之前的SummarizedExperiment里。🤠

这里我们用一下EnsDb.Hsapiens.v86包来获取基因的各种信息,如染色体位置、起止位点、类型、id等等,这个包以后我们再具体讲怎么用。

输出的文件为Granges,完美匹配。😁

library(EnsDb.Hsapiens.v86)

edb <- EnsDb.Hsapiens.v86
filter <- rownames(se_juan)
genes <- genes(edb)
genes <- genes[genes$gene_id %in% filter]
head(genes)
alt

5.4 添加rowData

这里需要说一下,有的基因没有具体的位点信息等,可能和版本有关系,以后我们再讲怎么处理。🥰

rowData(se_juan) <- genes
se_juan
rowData(se_juan)
alt

6小练习

我们做个小练习,试试画个基因平均表达的boxplot吧, 还要取一下log哦。😏

assay(se_juan)  %>% 
log() %>%
boxplot(col = colorRampPalette(brewer.pal(8, "Set2"))(8))
alt

alt
最后祝大家早日不卷!~

需要示例数据的小伙伴,在公众号回复SummarizedExperiment获取吧!

点个在看吧各位~ ✐.ɴɪᴄᴇ ᴅᴀʏ 〰

📍 往期精彩

📍 🤩 WGCNA | 值得你深入学习的生信分析方法!~
📍 🤩 ComplexHeatmap | 颜狗写的高颜值热图代码!
📍 🤥 ComplexHeatmap | 你的热图注释还挤在一起看不清吗!?
📍 🤨 Google | 谷歌翻译崩了我们怎么办!?(附完美解决方案)
📍 🤩 scRNA-seq | 吐血整理的单细胞入门教程
📍 🤣 NetworkD3 | 让我们一起画个动态的桑基图吧~
📍 🤩 RColorBrewer | 再多的配色也能轻松搞定!~
📍 🧐 rms | 批量完成你的线性回归
📍 🤩 CMplot | 完美复刻Nature上的曼哈顿图
📍 🤠 Network | 高颜值动态网络可视化工具
📍 🤗 boxjitter | 完美复刻Nature上的高颜值统计图
📍 🤫 linkET | 完美解决ggcor安装失败方案(附教程)
📍 ......

本文由 mdnice 多平台发布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值