写在前面——经过前面的一系列分析,我们得到了几个counts数据,接下来就需要根据这些数据来进行分析。本文使用Rstudio,从序列比对结果中筛选出差异基因,目的是(根据不同基因的表达量)找出实验组与对照组的差异。
本文使用的数据见RNA-seq——上游分析练习(数据下载+hisat2+samtools+htseq-count)
参考:
RNA-seq(6): reads计数,合并矩阵并进行注释
RNA-seq(7): DEseq2筛选差异表达基因并注释(bioMart)
1. 合并矩阵并进行注释
rm(list = ls())
options(stringsAsFactors = FALSE)
# 读取数据
control_1 <- read.table("SRR3589959.count", col.names = c("gene_id", "control_1"))
control_2 <- read.table("SRR3589961.count", col.names = c("gene_id", "control_2"))
treat_1 <- read.table("SRR3589960.count", col.names = c("gene_id", "treat_1"))
treat_2 <- read.table("SRR3589962.count", col.names = c("gene_id", "treat_2"))
# 将数据合并
raw_count <- merge(merge(control_1