geo差异表达分析_使用edgeR进行无重复差异表达分析

本文介绍了如何使用R包edgeR进行无重复差异表达分析,包括环境准备、构建DGEList对象、数据过滤、标准化、差异表达分析等步骤。通过调整参数和使用已知不变基因预测dispersion,探讨了无重复样本分析的挑战和解决方案。
摘要由CSDN通过智能技术生成

但是a75d562cdfedccf4571bff6186b4a447.png

写这篇文章一部分原因是填2年前的一个坑 转录组入门(7):差异表达分析. 另一部分原因是GQ最近又在搞一波无重复的差异表达分析, 所以专门去学了edgeR

我个人是不太推荐没有重复的差异表达分析,毕竟统计学上的p值是为了证明两个样本的差异是真实存在而不是抽样误差导致, 但是你单个样本如何计算变异呢?

因此每当别人提问的时候, 我个人的建议就是定性看看倍数变化吧. 但是如果真的强行要算p值, 其实也不是不行, edgeR就是一种选择.

环境准备

我们需要安装两个R包,一个是 edgeR, 一个是 airway. 其中airway是一个数据集包, 功能就是提供一个用于分析的数据

if (!requireNamespace("BiocManager", quietly = TRUE))

install.packages("BiocManager")

if (!requireNamespace("edgeR", quietly = TRUE))

BiocManager::install("edgeR")

if (!requireNamespace("airway", quietly = TRUE))

BiocManager::install("airway")

加载R包

library(edgeR)

library(airway)

构建DGEList

DGEList是edgeR分析流程中必须的对象. 构建该对象需要提供两类信息: 表达量矩阵和分组信息.

为了方便大家重复,我们这里的数据来自于airway. 对于你自己的数据, 可以用read.table等函数进行导入.

data("airway")

expr_matrix assay(airway)

meta_info colData(airway)

exprmatrix 是一个 64102 个基因和8个样本的矩阵.metainfo 里存放的是样本的元信息, 记录样本的处理, 来源等信息. 我们这里就用一部分数据, 也就是前两列构建DGEList对象

counts expr_matrix[,1:2]

group 1:2

y DGEList(counts=counts, group = group)

数据过滤

由于原来的表达量矩阵基因数太大, 可能存在某些基因根本没有表达, 因此需要预先过滤

keep rowSums(cpm(y)>1) >= 1

y y[keep, , keep.lib.sizes=FALSE]

这部分

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值