没有.bashrc_听说你的转录组数据没有生物学重复？别急，试试这几种方法！

最新推荐文章于 2021-09-21 20:09:59 发布

weixin_39851307

最新推荐文章于 2021-09-21 20:09:59 发布

阅读量1k

点赞数

文章标签：没有.bashrc

本文链接：https://blog.csdn.net/weixin_39851307/article/details/111369200

版权

本文介绍了当遇到转录组测序数据缺乏生物学重复时，如何进行差异分析。包括根据foldchange筛选、使用edgeR包以及利用Gfold软件的方法，并提供了详细的操作步骤和注意事项。

摘要由CSDN通过智能技术生成

点击上方「蓝字」关注我们

之前在谈谈转录组测序基础知识及常见问题一文中提到设置生物学重复的问题，这个环节也是你实验设计很重要的一part，生物学重复设置的好对你下游分析也有利，通常我们做转录组测序，需要的样本量每组至少为3个生物学重复，这个处理起来就很合理，并且现在流行的差异分析软件DEseq2，limma，edgeR等等都是针对有重复的数据去做的，但有时候会不幸碰到样品测序失败不能用，导致每组就给你剩一个重复时候该怎么办，之前就遇到过这种情况十分头疼，但是办法总比困难多，我们不能放过任何实验数据，查文献并Google一番发现其实还是有一些方法可以去解决的，在这里介绍下几种常用方法。

假如现在你手头有如下文件(test.txt)，只有俩样品RPKM_A (对照) 和RPKM_B (处理), 值为标准化后的RPKM。

1. 根据foldchange直接筛选

之前在一篇中文文献中见到有人用这种方法，作者自定义差异基因的标准：至少有一组RPKM值大于5，且满足foldchange(差异倍数) > 2，我们可以在LInux中直接可以用awk进行过滤，其实Excel、R中也可以操作，根据个人习惯吧，道理很简单，就是简单的过滤。提供Shell 代码如下：

### 上调基因########
# 提取B组大于等于5，A组等于0的基因。
less test.txt | gawk  '{if (($2==0)&&($3>=5)) print $0}'  > up.txt
# 提取A、B俩组至少有一组大于等于5，且B组值/A组值大于等于2
 less test.txt | gawk  '{if (($2!=0)&&($3!=0)) print $0}'|gawk '{if (($2>=5)||($3>=5)) print $0}'|sed '1d'|gawk '{if ($3/$2>=2) print $0}'

最低0.47元/天解锁文章

weixin_39851307

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫