2024年基因表达差异分析R工具包DESeq2的详细使用方法和使用案例(1)，2024年最新网易资深Linux运维架构师

2301_78416732

于 2024-05-04 03:02:19 发布

阅读量1.2k

点赞数 23

分类专栏：程序员文章标签：运维 r语言 linux

本文链接：https://blog.csdn.net/2301_78416732/article/details/138431103

版权

程序员专栏收录该内容

147 篇文章 1 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以点击这里获取！

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

步骤 2: 数据标准化和差异表达分析

使用 DESeq2 对数据进行标准化和差异表达分析。

# 标准化数据
dds <- DESeq(dds)

# 进行差异表达分析
res <- results(dds)

步骤 3: 结果解释和可视化

对差异表达结果进行解释和可视化。

# 查看差异表达基因
topGenes <- head(rownames(res[order(res$padj), ]), 10)

# 输出差异表达基因
write.csv(res, file = "deseq2_results.csv")

# 绘制差异表达图
plotCounts(dds, gene = topGenes, intgroup = "condition")

deseq2_results.csv: 包含差异表达分析结果的输出文件。

解释和注意事项：

DESeqDataSetFromMatrix(): 用于创建 DESeq2 数据对象，其中 countData 是表达矩阵，sampleInfo 包含样本信息，design 参数指定实验设计。
DESeq(): 对数据进行归一化和标准化，准备进行差异表达分析。
results(): 提取差异表达分析的结果，包括基因表达差异统计信息。
结果包括基因表达水平的差异统计指标，如 fold change、调整的 p 值（padj）等。
plotCounts(): 用于绘制基因表达水平的差异示意图，以更直观地展示不同条件下基因的表达情况。

使用案例

以下是三个使用 DESeq2 工具包的案例，包括完整的脚本以及输入输出文件内容和格式的详细解释。

案例 1: 基因差异表达分析

输入文件:

count_matrix.csv: 包含基因表达计数矩阵，行代表基因，列代表样本。
sample_info.csv: 包含每个样本的信息，例如条件或组别。

脚本:

# 读取 DESeq2 包
library(DESeq2)

# 读取表达矩阵和样本信息
countData <- as.matrix(read.csv("count_matrix.csv", row.names = 1))
sampleInfo <- read.csv("sample_info.csv")

# 创建 DESeq2 数据对象
dds <- DESeqDataSetFromMatrix(countData, colData = sampleInfo, design = ~ condition)

# 标准化数据和进行差异表达分析
dds <- DESeq(dds)
res <- results(dds)

# 输出差异表达基因列表和统计信息
write.csv(res, file = "deseq2_results.csv")

# 绘制差异表达基因的表达图
topGenes <- head(rownames(res[order(res$padj), ]), 10)
plotCounts(dds, gene = topGenes, intgroup = "condition")

输出文件:

deseq2_results.csv: 包含差异表达分析结果的输出文件。包括基因、fold change、p 值、调整的 p 值等信息。
图形文件：包含差异表达基因的表达图，显示不同条件下基因的表达情况。

案例 2: 多组实验设计的差异分析

输入文件:

count_matrix.csv
sample_info_multigroup.csv: 包含多组实验设计的样本信息。

脚本:

# 读取 DESeq2 包
library(DESeq2)

# 读取表达矩阵和样本信息
countData <- as.matrix(read.csv("count_matrix.csv", row.names = 1))
sampleInfo <- read.csv("sample_info_multigroup.csv")

# 创建 DESeq2 数据对象（多组实验设计）
dds <- DESeqDataSetFromMatrix(countData, colData = sampleInfo, design = ~ group + condition)

# 标准化数据和进行差异表达分析
dds <- DESeq(dds)
res <- results(dds)

# 输出差异表达基因列表和统计信息
write.csv(res, file = "deseq2_results_multigroup.csv")

输出文件:

deseq2_results_multigroup.csv: 包含多组实验设计差异表达分析结果的输出文件。


gene_id	baseMean	log2FoldChange	lfcSE	stat	pvalue	padj
GeneA	100	1.5	0.2	7.2	0.0001	0.001
GeneB	80	-0.8	0.3	-4.5	0.0002	0.002
GeneC	50	2.1	0.5	6	0.0003	0.003

gene_id: 基因或转录本的标识符。
baseMean: 平均表达量。
log2FoldChange: 对数变换后的 fold change，表示在不同条件之间的表达倍数变化。
lfcSE: log2 fold change 的标准误差。
stat: 统计检验值。
pvalue: 未经校正的 p 值。
padj: 经过多重假设检验校正后的调整 p 值（通常使用 FDR 校正），用于控制假阳性发现率。

案例 3: 时间序列分析

输入文件:

count_matrix_timeseries.csv: 包含时间序列实验的基因表达计数矩阵。


GeneID	Sample1	Sample2	Sample3	Sample4
GeneA	10	15	20	25
GeneB	5	8	12	18
GeneC	30	35	40	45
…

sample_info_timeseries.csv: 包含时间序列实验的样本信息，包括时间点等信息。


Sample	TimePoint	Treatment
Sample1	0	Control
Sample2	3	DrugA
Sample3	6	DrugA
Sample4	9	Control
…

脚本:

# 读取 DESeq2 包
library(DESeq2)

# 读取表达矩阵和样本信息
countData <- as.matrix(read.csv("count_matrix_timeseries.csv", row.names = 1))
sampleInfo <- read.csv("sample_info_timeseries.csv")

# 创建 DESeq2 数据对象（时间序列实验设计）
dds <- DESeqDataSetFromMatrix(countData, colData = sampleInfo, design = ~ time_point)

# 标准化数据和进行差异表达分析
dds <- DESeq(dds)
res <- results(dds)

# 输出差异表达基因列表和统计信息
write.csv(res, file = "deseq2_results_timeseries.csv")

输出文件:

为了做好运维面试路上的助攻手，特整理了上百道 【运维技术栈面试题集锦】 ，让你面试不慌心不跳，高薪offer怀里抱！

这次整理的面试题，小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。

本份面试集锦涵盖了

174 道运维工程师面试题
128道k8s面试题
108道shell脚本面试题
200道Linux面试题
51道docker面试题
35道Jenkis面试题
78道MongoDB面试题
17道ansible面试题
60道dubbo面试题
53道kafka面试
18道mysql面试题
40道nginx面试题
77道redis面试题
28道zookeeper

总计 1000+ 道面试题，内容又全含金量又高

174道运维工程师面试题

1、什么是运维?

2、在工作中，运维人员经常需要跟运营人员打交道，请问运营人员是做什么工作的?

3、现在给你三百台服务器，你怎么对他们进行管理?

4、简述raid0 raid1raid5二种工作模式的工作原理及特点

5、LVS、Nginx、HAproxy有什么区别?工作中你怎么选择?

6、Squid、Varinsh和Nginx有什么区别，工作中你怎么选择?

7、Tomcat和Resin有什么区别，工作中你怎么选择?

8、什么是中间件?什么是jdk?

9、讲述一下Tomcat8005、8009、8080三个端口的含义？

10、什么叫CDN?

11、什么叫网站灰度发布?

12、简述DNS进行域名解析的过程?

13、RabbitMQ是什么东西?

14、讲一下Keepalived的工作原理?

15、讲述一下LVS三种模式的工作过程?

16、mysql的innodb如何定位锁问题，mysql如何减少主从复制延迟?

17、如何重置mysql root密码?

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以点击这里获取！

db如何定位锁问题，mysql如何减少主从复制延迟?

17、如何重置mysql root密码?

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以点击这里获取！

2301_78416732

关注

23
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
2024年基因表达差异分析R工具包DESeq2的详细使用方法和使用案例(1)，2024年最新网易资深Linux运维架构师

16、mysql的innodb如何定位锁问题，mysql如何减少主从复制延迟?2、在工作中，运维人员经常需要跟运营人员打交道，请问运营人员是做什么工作的?6、Squid、Varinsh和Nginx有什么区别，工作中你怎么选择?5、LVS、Nginx、HAproxy有什么区别?9、讲述一下Tomcat8005、8009、8080三个端口的含义？7、Tomcat和Resin有什么区别，工作中你怎么选择?3、现在给你三百台服务器，你怎么对他们进行管理?15、讲述一下LVS三种模式的工作过程?
复制链接

扫一扫