在本教程中,负二项式用于在 R 中使用DESeq2,pheatmap和tidyverse包执行差异基因表达分析。RNA-Seq 数据的工作流程是:
从测序设备获取FASTQ测序文件
评估quality测序读数
执行genome alignment以识别读取的来源
生成比count matrix对的读数,即与每个基因的外显子比对的读数的数量。
本教程中使用的数据集来自已发表的Hammer 等人 2010 年的研究。读取计数矩阵和元数据从Recount 项目网站获得简而言之,Hammer 实验研究了大鼠两周和两个月后脊髓神经结扎 (SNL) 与对照(正常)样本的效果。在本教程中,我们探讨了第一个和第二个时间点的差异基因表达以及两个时间点之间倍数变化的差异。
http://bowtie-bio.sourceforge.net/recount/
在 R 中加载数据基因计数和元数据
本研究共有 8 个样本,即 4 个controls和 4 个样本spinal nerve ligation。meta data包含示例特征,并且有一些我手动更正的错字(检查上面的下载链接)。
使用以下 R 代码导入读取计数数据:
使用View函数检查完整的数据集。
read_Count <- read.table("hammer_count_table.txt"</