基因表达矩阵中排除表达量低的样本和基因

在构建基因表达矩阵后,为了PCA分析和差异基因研究,通常需要剔除表达量低的样本和基因。通过使用R语言的`colSums`函数,可以筛选出基因在所有样本中表达量总和大于0的,以及至少在2个样本中表达的基因。同时,还需确保样本至少表达2个基因。这一过程能有效减少矩阵大小,便于后续分析。
摘要由CSDN通过智能技术生成

构建基因表达矩阵的时候,其基因个数和样本个数都会达到成千上万个,这时在做PCA分析或者差异基因分析前最好排除表达量低的样本和基因

#加载相应的安装包
library(tidyverse)
#例子如下
gdf <- tibble(g = rnorm(4, 0.5, 0.5), v1 = rnorm(4,1,0.5), v2 = rnorm(4, 1.5, 0.5) 
gdf <- gdf%>% mutate(v3 = rep(0,4)) 
gdf

Output:

# A tibble: 4 x 4
       g    v1    v2    v3
   <dbl> <dbl> <dbl> <dbl>
1 0.718  1.48  0.646     0
2 0.0799 1.60  1.40      0
3 0.925  0.715 1.26      0
4 0.217  1.05  1.76      0

横坐标为样本,纵坐标为基因,此时可以看做有4个基因,4个样本:
如果我们要排除在所有样本中表达量均为0的基因(即v3),可以用colSums函数:

colSums(gdf)>0

Output:

    g    v1    v2    v3 
 TRUE  TRUE  TRUE FALSE 

筛选所有样本中表达量的和大于0的基因:

gdf [,colSums(gdf)
  • 2
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值