#TCGA系列#利用R处理多个文件夹下的miRNA表达数据

最新推荐文章于 2023-02-19 10:32:54 发布

Talini

最新推荐文章于 2023-02-19 10:32:54 发布

阅读量4.3k

点赞数 9

分类专栏：Ｒ生物文章标签： TCGA R miRNA表达数据处理

本文链接：https://blog.csdn.net/DeepSeaYu/article/details/102515874

版权

本文介绍如何利用R语言处理TCGA项目中分布在多个文件夹下的miRNA表达数据，包括文件的整理、数据提取、矩阵合并以及列名替换等步骤，最终进行数据预处理。

摘要由CSDN通过智能技术生成

- 当我们TCGA官方下载数据miRNA表达数据时，这些数据大多都位于多个文件夹下，而且有类似文件容易混淆。

在这里插入图片描述

- 说实话，R处理文件并没有perl好用，但并不代表不能处理

f1 <- list.files(pattern="isoforms.quantification",recursive=T)
f2 <- list.files(pattern="isoforms.quantification.txt.parcel",recursive=T)
f3 <- setdiff(f1,f2);#取两者的差集
f4 <- strsplit(f3,"/")
f5 <- data.frame(matrix(unlist(f4), nrow=491, byrow=T))
f6 <- as.matrix(f5)
f7 <- f6[,3]

结果展示，最终把文件名取出
在这里插入图片描述

- 取出样本后，就该提取数据合为矩阵

#取某个样本，求提取YES后剩的最终行数
da1 <- read.table(f3[1],header = T,stringsAsFactors = F)
da2 <- da1[da1$cross.mapped=="N",]
da3 <- aggregate(read_count~miRNA_region,data=da2,sum)
da <- data.frame(da3$miRNA_region)
colnames(da) <- "miRNA_region"

#利用循环把所有样本的RPM值合为矩阵
for(i in 1:length(f3)){
   
  a <- read.table(f3[i],header = T,stringsAsFactors = F) 
  b <- a[a$cross.mapped=="N",]
  RPM <- aggregate(read_count~miRNA_region,data = b,sum)
  RPM$read_count <- (RPM$read_count*10^6)

最低0.47元/天解锁文章

Talini

关注

9
点赞
踩
45

收藏

觉得还不错? 一键收藏
6
评论
#TCGA系列#利用R处理多个文件夹下的miRNA表达数据

- 当我们TCGA官方下载数据miRNA表达数据时，这些数据大多都位于多个文件夹下，而且有类似文件容易混淆。 - 说实话，R处理文件并没有perl好用，但并不代表不能处理f1 <- list.files(pattern="isoforms.quantification",recursive=T)f2 <- list.files(pattern="isoforms.quanti...
复制链接

扫一扫

专栏目录