基因表达差异分析R工具包DESeq2的详细使用方法和使用案例(1)

最新推荐文章于 2024-07-05 19:16:52 发布

2401_83944297

最新推荐文章于 2024-07-05 19:16:52 发布

阅读量1k

点赞数 7

文章标签： r语言开发语言

本文链接：https://blog.csdn.net/2401_83944297/article/details/139943501

版权

步骤 2: 数据标准化和差异表达分析

使用 DESeq2 对数据进行标准化和差异表达分析。

# 标准化数据
dds <- DESeq(dds)

# 进行差异表达分析
res <- results(dds)

步骤 3: 结果解释和可视化

对差异表达结果进行解释和可视化。

# 查看差异表达基因
topGenes <- head(rownames(res[order(res$padj), ]), 10)

# 输出差异表达基因
write.csv(res, file = "deseq2_results.csv")

# 绘制差异表达图
plotCounts(dds, gene = topGenes, intgroup = "condition")

deseq2_results.csv: 包含差异表达分析结果的输出文件。

解释和注意事项：

DESeqDataSetFromMatrix(): 用于创建 DESeq2 数据对象，其中 countData 是表达矩阵，sampleInfo 包含样本信息，design 参数指定实验设计。
DESeq(): 对数据进行归一化和标准化，准备进行差异表达分析。
results(): 提取差异表达分析的结果，包括基因表达差异统计信息。
结果包括基因表达水平的差异统计指标，如 fold change、调整的 p 值（padj）等。
plotCounts(): 用于绘制基因表达水平的差异示意图，以更直观地展示不同条件下基因的表达情况。

使用案例

以下是三个使用 DESeq2 工具包的案例，包括完整的脚本以及输入输出文件内容和格式的详细解释。

案例 1: 基因差异表达分析

输入文件:

count_matrix.csv: 包含基因表达计数矩阵，行代表基因，列代表样本。
sample_info.csv: 包含每个样本的信息，例如条件或组别。

脚本:

# 读取 DESeq2 包
library(DESeq2)

# 读取表达矩阵和样本信息
countData <- as.matrix(read.csv("count_matrix.csv", row.names = 1))
sampleInfo <- read.csv("sample_info.csv")

# 创建 DESeq2 数据对象
dds <- DESeqDataSetFromMatrix(countData, colData = sampleInfo, design = ~ condition)

# 标准化数据和进行差异表达分析
dds <- DESeq(dds)
res <- results(dds)

# 输出差异表达基因列表和统计信息
write.csv(res, file = "deseq2_results.csv")

# 绘制差异表达基因的表达图
topGenes <- head(rownames(res[order(res$padj), ]), 10)
plotCounts(dds, gene = topGenes, intgroup = "condition")

输出文件:

deseq2_results.csv: 包含差异表达分析结果的输出文件。包括基因、fold change、p 值、调整的 p 值等信息。
图形文件：包含差异表达基因的表达图，显示不同条件下基因的表达情况。

案例 2: 多组实验设计的差异分析

输入文件:

count_matrix.csv
sample_info_multigroup.csv: 包含多组实验设计的样本信息。

脚本:

# 读取 DESeq2 包
library(DESeq2)

# 读取表达矩阵和样本信息
countData <- as.matrix(read.csv("count_matrix.csv", row.names = 1))
sampleInfo <- read.csv("sample_info_multigroup.csv")

# 创建 DESeq2 数据对象（多组实验设计）
dds <- DESeqDataSetFromMatrix(countData, colData = sampleInfo, design = ~ group + condition)

# 标准化数据和进行差异表达分析
dds <- DESeq(dds)
res <- results(dds)

# 输出差异表达基因列表和统计信息
write.csv(res, file = "deseq2_results_multigroup.csv")

输出文件:

deseq2_results_multigroup.csv: 包含多组实验设计差异表达分析结果的输出文件。


gene_id	baseMean	log2FoldChange	lfcSE	stat	pvalue	padj
GeneA	100	1.5	0.2	7.2	0.0001	0.001
GeneB	80	-0.8	0.3	-4.5	0.0002	0.002
GeneC	50	2.1	0.5	6	0.0003	0.003

gene_id: 基因或转录本的标识符。
baseMean: 平均表达量。
log2FoldChange: 对数变换后的 fold change，表示在不同条件之间的表达倍数变化。
lfcSE: log2 fold change 的标准误差。
stat: 统计检验值。
pvalue: 未经校正的 p 值。
padj: 经过多重假设检验校正后的调整 p 值（通常使用 FDR 校正），用于控制假阳性发现率。

案例 3: 时间序列分析

输入文件:

count_matrix_timeseries.csv: 包含时间序列实验的基因表达计数矩阵。


GeneID	Sample1	Sample2	Sample3	Sample4
GeneA	10	15	20	25
GeneB	5	8	12	18
GeneC	30	35	40	45
…

sample_info_timeseries.csv: 包含时间序列实验的样本信息，包括时间点等信息。


Sample	TimePoint	Treatment
Sample1	0	Control
Sample2	3	DrugA
Sample3	6	DrugA
Sample4	9	Control
…

脚本:

# 读取 DESeq2 包
library(DESeq2)

# 读取表达矩阵和样本信息
countData <- as.matrix(read.csv("count_matrix_timeseries.csv", row.names = 1))
sampleInfo <- read.csv("sample_info_timeseries.csv")

# 创建 DESeq2 数据对象（时间序列实验设计）
dds <- DESeqDataSetFromMatrix(countData, colData = sampleInfo, design = ~ time_point)

# 标准化数据和进行差异表达分析
dds <- DESeq(dds)
res <- results(dds)

# 输出差异表达基因列表和统计信息
write.csv(res, file = "deseq2_results_timeseries.csv")

输出文件: