R语言DESeq包介绍
分析RNA序列数据的一个主要任务是探测基因的差异表达,DESeq包提供了测试差异表达的方法,应用负二项分布和收缩的分布方程估计。
1. 包的安装
输入如下命令,DESeq和相关的包就可以自动下载和安装。 > source(\> biocLite(\
相关的包会自动下载安装,安装的包如下:
中间会有个选择需要更新相关的包,选择更新全部,更新的包有:
另外还要安装一个数据包,供下面介绍包中的方法时使用,包名为pasilla.
2. 输入数据和准备
2.1 计数表
数据表的第i行第j列元素表示第j个样本的第i个基因有多少个reads。本文使用的数据来
自于pasilla数据包,函数system.file告诉我们数据文件保存的路径。 > datafile = system.file( \> datafile
[1] \在R中读取这个文件,使用read.table函数。
> pasillaCountTable = read.table( datafile, header=TRUE, row.names=1 ) > head( pasillaCountTable )
2.2 元数据
没有元数据的数据是没有用的,元数据可以分为三组,分别是样本(行),特征(列)和整个实验的信息。
首先需要样本的描述信息,data.frame的列表示各种信息,行表示7个样本。 > pasillaDesign = data.frame(
+ row.names = colnames( pasill