关于数据集的小节:
1、reads:测序得到的小片段(类似:ATCCTA..GCTA)2、counts:与已知序列(基因)比对上的reads个数(为整数,可能是个位数也可能是几千,与基因表达情况和测序深度有关)
3、由于不同基因的reads长度不同,从统计角度上看,需要采用FPKM或RPKM来排除随机抽样带来的偏倚。并且,不同的测序深度,直接影响counts的个数。
4、通常,如果数据集都为整数,基本上可以判定是counts值,如果是小数,基本上可以判定是做整理后的FPKM或RPKM,这个就需要找到数据集的源头(NCBI或其它数据库)查看数据的说明