点击上方「蓝字」关注我们
之前在 谈谈转录组测序基础知识及常见问题一文中提到设置生物学重复的问题,这个环节也是你实验设计很重要的一part,生物学重复设置的好对你下游分析也有利,通常我们做转录组测序,需要的样本量每组至少为3个生物学重复,这个处理起来就很合理,并且现在流行的差异分析软件DEseq2,limma,edgeR等等都是针对有重复的数据去做的,但有时候会不幸碰到样品测序失败不能用,导致每组就给你剩一个重复时候该怎么办,之前就遇到过这种情况十分头疼,但是办法总比困难多,我们不能放过任何实验数据,查文献并Google一番发现其实还是有一些方法可以去解决的,在这里介绍下几种常用方法。
假如现在你手头有如下文件(test.txt),只有俩样品RPKM_A (对照) 和RPKM_B (处理), 值为标准化后的RPKM。
1. 根据foldchange直接筛选
之前在一篇中文文献中见到有人用这种方法,作者自定义差异基因的标准:至少有一组RPKM值大于5,且满足foldchange(差异倍数) > 2,我们可以在LInux中直接可以用awk进行过滤,其实Excel、R中也可以操作,根据个人习惯吧,道理很简单,就是简单的过滤。提供Shell 代码如下:
### 上调基因########
# 提取B组大于等于5,A组等于0的基因。
less test.txt | gawk '{if (($2==0)&&($3>=5)) print $0}' > up.txt
# 提取A、B俩组至少有一组大于等于5,且B组值/A组值大于等于2
less test.txt | gawk '{if (($2!=0)&&($3!=0)) print $0}'|gawk '{if (($2>=5)||($3>=5)) print $0}'|sed '1d'|gawk '{if ($3/$2>=2) print $0}'