featureCounts是subread软件包中的一种工具,主要用来计算subread比对之后的结果进行reads计数,目前比较常用的reads计算工具有两款,一个是HTseq,另一款就是featureCounts。reads 记数主要用在RNAseq分析中。一般在利用R语言进行RNAseq数据分析时,输入文件基本上都是reads count结果。例如DEseq,DEseq2,edgeR,limma等R包,都需要输入这样的结果,不能直接输入归一化之后的结果,因为这些软件都需要使用自己归一化的方法。
Subread软件包是处理下一代测序数据的工具包。它包括子读取对齐器、虚拟外显子-外显子连接检测器和featureCounts读取摘要程序。
1. 下载安装subread
conda 安装,先安装conda环境,激活。
conda install subread
源码下载编译安装 Subread download | SourceForge.net
2. 转录本定量
- bam文件可以一个或多个。
- 可以写成脚本,批量处理。
gft_file="/path/to/your/gtf/file"
bam_file1="/path/to/your/bam/file1"
bam_file2="/path/to/your/bam/file2"
featureCounts -t exon -g gene_id -a ${gft_file} -o counts.txt ${bam_file1}
# 去除首行,#开头,其余行保留基因名,长度和read数。
awk 'BEGIN{FS=OFS="\t"}!/#/{print $1,$6,$7}' counts.txt >counts.txt.simple
3. 下游分析
读入R成数据框,再用DESeq2包的DESeqDataSetFromMatrix函数读入生成DESeqDataSet对象,进行下游差异表达分析。