在集群环境下如何解决需要使用R语言的需求?
关键词: PBS作业调度系统; HPC; R;
本文最初思路构思于2018/05,成文于2018/10/17
本文背景是博主的最新一篇论文(上位基因检测机器学习算法创新)临近实验尾声,已经完成在模拟数据中的检测,现在需要在真实数据上进行测试,奈何真实基因数据过于庞大,本地、单机的解决方案捉襟见肘,所以需要调用学院的集群来进行数据处理和运算。
本文设定实验环境有一个最大的痛点是无法重启,原因1、是博主并非管理员只是使用者 2、集群并非是博主一人在使用,所以使用本文方案,无需重启集群,且不需要拥有管理员权限。
博主的其它文章在短短一年时间里已经积累阅读量超过四万余次并收获很多好评也帮到了不少朋友(见该文章评论区)。如果您觉得我这篇文章写得不错;或者您也像博主一样在找资料的时候被垃圾转载、胡乱复制的博文气的肝颤;请务必用万分之一秒的时间为本文点个赞,既对作者表示认同,又为后面来这儿的朋友提供一下对这篇博文质量的参考!
集群操作环境
系统环境:CentOS/Redhat系–20节点集群
登陆节点硬件配置:Intel® Xeon® CPU E5-2609 v2 @ 2.50GHz
Tips:据有经验的老司机学长说装最新版本的R有可能会出现什么bug所以要装旧一点版本的R
所以我使用了与本机开发环境相同的R版本:3.4.1
,我已经开发完毕的R包也是基于这个版本的R。
另外需要集群已经安装了gcc,最好是新一点的版本,不需要7.1.0
那么新,但最少也要4.4.7
这样的版本。
下面正式开始 Copyright © https://blog.csdn.net/s_gy_zetrov. All Rights Reserved 安装!
1. 文件夹创建
- 进入登陆节点的
~
路径下,建立两个文件夹:package、src - 进入src中
cd src
2. 下载R安装包
src文件夹
中使用如下命令:
$> wget https://cran.r-project.org/src/base/R-3/R-3.4.1.tar.gz
$> tar -zxvf R-3.4.1.tar.gz
# -z:有gzip属性的
# -x:解压
# -v:显示所有过程
# -f: 使用档案名字,切记,这个参数是最后一个参数,后面只能接档案名。Copyright © https://blog.csdn.net/s_gy_zetrov. All Rights Reserved
3. 接下来安装各种R以及依赖
本文出现的命令建议一条一条复制粘贴回车运行,不过高端玩家自己搞一个.sh
文件运行也不是不行就是了。
3.1-a R安装
src文件夹
中
cd R-3.4.1