做数据分析时,经常会遇到需要把连续性变量转为分类变量。
一 读入数据
读入TCGA的表达量数据,截取部分数据进行示范
#TCGA的表达量数据#setwd()data
row.names=1 :读入数据的第一列作为行名check.names=FALSE:标题保持原样可以自行试一下,分别去掉这两个参数,然后比较下数据的差异
二 批量转化
1 ifelse转化单一列
#将TCGA-97-7938-01A根据medain转为 高 低data1 median(data1[,"ENSG00000000003.13"]),"High","Low")data1[1:4,1:4]
可以看到ENSG00000000003.13基因的表达量已经转为高 低 二分类了。
分段阈值:还可以是均值,四分卫,10%,或者具体数值
#按照均值分data1[,"ENSG00000000460.15"] mean(data1[,"ENSG00000000460.15"]),"High",