基因表达差异分析R工具包DESeq2的详细使用方法和使用案例(1)

步骤 2: 数据标准化和差异表达分析

使用 DESeq2 对数据进行标准化和差异表达分析。

# 标准化数据
dds <- DESeq(dds)

# 进行差异表达分析
res <- results(dds)

步骤 3: 结果解释和可视化

对差异表达结果进行解释和可视化。

# 查看差异表达基因
topGenes <- head(rownames(res[order(res$padj), ]), 10)

# 输出差异表达基因
write.csv(res, file = "deseq2_results.csv")

# 绘制差异表达图
plotCounts(dds, gene = topGenes, intgroup = "condition")

  • deseq2_results.csv: 包含差异表达分析结果的输出文件。

解释和注意事项:

  • DESeqDataSetFromMatrix(): 用于创建 DESeq2 数据对象,其中 countData 是表达矩阵,sampleInfo 包含样本信息,design 参数指定实验设计。
  • DESeq(): 对数据进行归一化和标准化,准备进行差异表达分析。
  • results(): 提取差异表达分析的结果,包括基因表达差异统计信息。
  • 结果包括基因表达水平的差异统计指标,如 fold change、调整的 p 值(padj)等。
  • plotCounts(): 用于绘制基因表达水平的差异示意图,以更直观地展示不同条件下基因的表达情况。

使用案例

以下是三个使用 DESeq2 工具包的案例,包括完整的脚本以及输入输出文件内容和格式的详细解释。

案例 1: 基因差异表达分析

输入文件:

  • count_matrix.csv: 包含基因表达计数矩阵,行代表基因,列代表样本。
  • sample_info.csv: 包含每个样本的信息,例如条件或组别。

脚本:

# 读取 DESeq2 包
library(DESeq2)

# 读取表达矩阵和样本信息
countData <- as.matrix(read.csv("count_matrix.csv", row.names = 1))
sampleInfo <- read.csv("sample_info.csv")

# 创建 DESeq2 数据对象
dds <- DESeqDataSetFromMatrix(countData, colData = sampleInfo, design = ~ condition)

# 标准化数据和进行差异表达分析
dds <- DESeq(dds)
res <- results(dds)

# 输出差异表达基因列表和统计信息
write.csv(res, file = "deseq2_results.csv")

# 绘制差异表达基因的表达图
topGenes <- head(rownames(res[order(res$padj), ]), 10)
plotCounts(dds, gene = topGenes, intgroup = "condition")

输出文件:

  • deseq2_results.csv: 包含差异表达分析结果的输出文件。包括基因、fold change、p 值、调整的 p 值等信息。
  • 图形文件:包含差异表达基因的表达图,显示不同条件下基因的表达情况。

案例 2: 多组实验设计的差异分析

输入文件:

  • count_matrix.csv
  • sample_info_multigroup.csv: 包含多组实验设计的样本信息。

脚本:

# 读取 DESeq2 包
library(DESeq2)

# 读取表达矩阵和样本信息
countData <- as.matrix(read.csv("count_matrix.csv", row.names = 1))
sampleInfo <- read.csv("sample_info_multigroup.csv")

# 创建 DESeq2 数据对象(多组实验设计)
dds <- DESeqDataSetFromMatrix(countData, colData = sampleInfo, design = ~ group + condition)

# 标准化数据和进行差异表达分析
dds <- DESeq(dds)
res <- results(dds)

# 输出差异表达基因列表和统计信息
write.csv(res, file = "deseq2_results_multigroup.csv")

输出文件:

  • deseq2_results_multigroup.csv: 包含多组实验设计差异表达分析结果的输出文件。
gene_idbaseMeanlog2FoldChangelfcSEstatpvaluepadj
GeneA1001.50.27.20.00010.001
GeneB80-0.80.3-4.50.00020.002
GeneC502.10.560.00030.003
  • gene_id: 基因或转录本的标识符。
  • baseMean: 平均表达量。
  • log2FoldChange: 对数变换后的 fold change,表示在不同条件之间的表达倍数变化。
  • lfcSE: log2 fold change 的标准误差。
  • stat: 统计检验值。
  • pvalue: 未经校正的 p 值。
  • padj: 经过多重假设检验校正后的调整 p 值(通常使用 FDR 校正),用于控制假阳性发现率。

案例 3: 时间序列分析

输入文件:

  • count_matrix_timeseries.csv: 包含时间序列实验的基因表达计数矩阵。
GeneIDSample1Sample2Sample3Sample4
GeneA10152025
GeneB581218
GeneC30354045
  • sample_info_timeseries.csv: 包含时间序列实验的样本信息,包括时间点等信息。
SampleTimePointTreatment
Sample10Control
Sample23DrugA
Sample36DrugA
Sample49Control

脚本:

# 读取 DESeq2 包
library(DESeq2)

# 读取表达矩阵和样本信息
countData <- as.matrix(read.csv("count_matrix_timeseries.csv", row.names = 1))
sampleInfo <- read.csv("sample_info_timeseries.csv")

# 创建 DESeq2 数据对象(时间序列实验设计)
dds <- DESeqDataSetFromMatrix(countData, colData = sampleInfo, design = ~ time_point)

# 标准化数据和进行差异表达分析
dds <- DESeq(dds)
res <- results(dds)

# 输出差异表达基因列表和统计信息
write.csv(res, file = "deseq2_results_timeseries.csv")

输出文件:

最后的话

最近很多小伙伴找我要Linux学习资料,于是我翻箱倒柜,整理了一些优质资源,涵盖视频、电子书、PPT等共享给大家!

资料预览

给大家整理的视频资料:

给大家整理的电子书资料:

如果本文对你有帮助,欢迎点赞、收藏、转发给朋友,让我有持续创作的动力!
很多小伙伴找我要Linux学习资料,于是我翻箱倒柜,整理了一些优质资源,涵盖视频、电子书、PPT等共享给大家!

资料预览

给大家整理的视频资料:

[外链图片转存中…(img-TSELyObc-1719256677608)]

给大家整理的电子书资料:

[外链图片转存中…(img-OMIf5Qep-1719256677609)]

如果本文对你有帮助,欢迎点赞、收藏、转发给朋友,让我有持续创作的动力!

  • 7
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值