本文首发于“生信补给站”Tidyverse|数据列的分分合合,一分多,多合一
TCGA数据挖掘可做很多分析,前期数据“清洗”费时费力但很需要。
比如基因列为ID的需要转为常见的symbol,基因列为symbol|ID的就需要拆开了!
excel分列可以解决,但是表达量数据较大,且excel容易产生“数据变形”。
一, 载入数据,R包
使用TCGA下载的数据,使用以下几行几列, 作为示例
library(tidyverse)
data <- read.csv("separate.csv",header = TRUE, check.name = FALSE)
head(data)
ID ID2 TCGA-18-3406-01A-01R-0980-07 TCGA-18-3407-01A-01R-0980-07
1 A1BG|1 A1BG/1 741.6929 46.7127
2 A1CF|29974 A1CF/29974 0.0000 0.4757
3 A2BP1|54715 A2BP1/54715 0.0000 0.0000
4 A2LD1|87769 A2LD1/87769 170.2362 118.4063
5 A2ML1|144568 A2ML1/144568