检测RTCGAToolbox包功能并加载
检查RTCGAToolbox是否下载
输入命令:library(“RTCGAToolbox”)
不报错则已经下载该工具包
检测RTCGAToolbox功能是否完好
输入命令:getFirehoseDatasets()
若生成肿瘤数据库名称,则完好
否则重新下载RTCGAToolbox包
查看当前工作目录
输入命令:getwd()
若想更换工作目录输入命令:setwd(“想要的工作目录地址”)
如setwd(“D:/database”)
命令下载数据
加载RTCGAToolbox
输入命令:library(“RTCGAToolbox”)
开始下载数据
这里以下载乳腺癌数据为例
输入命令:Data = getFirehoseData(
dataset=“BRCA”,
runDate=“20140115”,
clinical=TRUE,
RNASeqGene=TRUE,
mRNAArray=TRUE,
Mutation=TRUE)
注:中间没有空格,一口气到头
此时应下载274k,276.6m的数据和74m数据
纠错
不出意外会报错的
工作目录的问题
这里查看自己工作目录路径D:/database
若增加一些文件了,文本文件,压缩包等等,则忽略这整个这一条
若啥也没有增加,或者只增加了工作空间,则进入报错给的地址中去,这才是当前工作的真正目录,刚刚下的文件啊,压缩包全在里面
注:如果你找不到报错给的地址,就按照图中给的位置去找找,win10默认估计都这个位置:C:/Users/用户名/AppData/Local/Temp/,再按照时间更改找到文件夹
注:如果在C盘找这个路径时找不到类似Appdata之类的文件夹,不妨在找不到的路径位置头顶的查看一栏,点开隐藏的文件夹,就找到啦
**此时一定记住更改此时的工作目录至真正的工作目录,因为我们还要重新接着下,**如果不改这个目录,又会重新在C盘刚刚找到的Temp文件夹中创建一个新的文件夹,会陷入死循环。
更改目录输入命令:如setwd(“C:/Users/傻大猪/AppData/Local/Temp/RtmpyO01jP”)
后面所有的更改和操作都在这个目录下
文件名太长报错
若报错文件扩展名太长,则按照下图改文件名字
简而言之就是,那个压缩包名字太长啦,里面文本文件名字也太长啦,若压缩包还没解压就先解压到当前路径,更改解压后文件夹名称和里面文本名字(按照图上规范来)
注:所有期间都不要关闭R语言,不然目录又要改
再次下载和纠错
再次下载数据
再次输入相同下载命令:Data = getFirehoseData(
dataset=“BRCA”,
runDate=“20140115”,
clinical=TRUE,
RNASeqGene=TRUE,
mRNAArray=TRUE,
Mutation=TRUE)
此时应下载10m数据
再次纠错
再次报错Error in file(file, “rt”) : 无法打开链结
手动解压刚刚新下好的压缩包(名字带有Mutation)到当前路径。
若打开另一个新下好的压缩包(名字带又Gene),显示文件损坏,没有关系
最后一次下载
真的是最后一次吗?
再下载
再次输入相同下载命令:Data = getFirehoseData(
dataset=“BRCA”,
runDate=“20140115”,
clinical=TRUE,
RNASeqGene=TRUE,
mRNAArray=TRUE,
Mutation=TRUE)
此时还是应该下载10m数据
报错啦
若有任何错误,就尝试把第一次解压好的文件夹里面很小的那个文本文件复制出来放到工作目录路径
然后再次加载,若还是报错,再次下载(都是10m)
若很多次这10m下完还是报错,就把那个损坏的压缩包(名字带有Gene)解压,抽取出来里面的文本文件就可以啦。
你可能会问,为啥不早抽取,还要反复试,因为R语言自己抽取解压出来的文件更放心一点把,用起来底气更足哇
成功啦
成功截图如下,只要包含那四个文本文件就可以啦
这是数据分析的第一关,当然是也是拦路虎,你砍死它了吗?