为了增加计算力来处理和整合更多和更杂的数据集,运维同事给我们分配了服务器。服务器是用Centos7的 Linux 系统,为了完成数据科学任务,我们需要在 服务器 上面搭建R平台。
通过阅读本文,你可以获得:
服务器上面安装R和RStudio
服务器上面安装常用R包
1 准备工作
在CentOS 7上,R可以基于epel package repository使用yum来安装,所以我们需要先添加它。
sudo yum install epel-release
sudo yum update
2 安装R
sudo yum install R -y
安装完毕后,输入命令
R
出现下面结果,表示安装成功了。
3 安装Rstudio Server
你在 这里 可以查看最新的版本和安装指南。
wget https://download2.rstudio.org/rstudio-server-rhel-1.1.453-x86_64.rpm
sudo yum install rstudio-server-rhel-1.1.453-x86_64.rpm -y
Rstudio Server安装好后,需要在服务器上面启动它
sudo systemctl status rstudio-server
如果您正在服务器上安装它(没有GUI),您可以通过浏览器使用RStudio,方法是打开RStudio正在运行的端口(默认为8787)。对于GUI机器,只需在http://你的服务器IP:8787 打开RStudio,将出现以下屏幕,使用安装RStudio (sudo用户)时使用的用户名和密码。
成功打开的RStudio如下:
安装常用R包
1 tidyverse包
** tidyverse包** 是为数据科学设计的R包的集合。所有包都共享基本的设计哲学、语法和数据结构。在 这里 可以学习如何使用这个包。
在安装tidyverse包的时候,需要在服务器上面先做如下设置,因为这个包需要依赖这些程式。
yum install libxml2-devel
yum install openssl-devel
yum install libcurl-devel
安装tidyverse包的命令
install.packages('tidyverse')
加载tidyverse包的命令
library(tidyverse)
返回如下结果,表示成功安装。
2 caret包
caret包是(Classification And REgression Traing)的大字母缩写,包含了一系列函数集,用来简化创建预测模型的过程。这个包主要包含如下工具:
数据划分
预处理
特征选择
模型设计和构建
使用重采样的模型调优
变量重要性评价
在 这里 有caret包的详细介绍。
安装caret包的命令
install.packages('caret')
加载caret包的命令
library(caret)
返回如下结果,表示caret包安装成功,可以正常使用了。
3 scorecard包
scorecard包提供IV,变量过滤,最佳WOE分箱,评分刻度和性能评价等函数集,使得评分卡的设计和开发更加轻松和高效。这个包主要提供如下函数集:
数据划分(split_df)
变量选择(var_filter, iv)
woe分箱(woebin, woebin_plot, woebin_adj, woebin_ply)
评分刻度(scorecard, scorecard_ply)
性能评价(perf_eva, perf_psi)
在 这里 可以查看这个包的详细文档,在 这里 可以查看这个包使用案例。
scorecard包安装和加载命令
install.packages('scorecard')
library(scorecard)
针对你的业务问题,需要使用其它R包,按着安装R包的方法,安装即可。
参考资料: 1 http://devopspy.com/linux/install-r-rstudio-centos-7/
关于服务器上面安装R平台,您有什么疑问或者想法,请留言。
版权声明: 作者保留权利。文章为作者独立观点,不代表数据人网立场。严禁修改,转载请注明原文链接:http://shujuren.org/article/802.html
数据人网: 数据人学习,交流和分享的平台,诚邀您创造和分享数据知识,共建和共享数据智库。