Centos 安装R 集成 Hadoop、RHive 配置安装手册

原创 2015年07月10日 10:38:04

RHive 是一种通过HIVE高性能查询来扩展R计算能力的包。它可以在R环境中非常容易的调用HQL, 也允许在Hive中使用R的对象和函数。理论上数据处理量可以无限扩展的Hive平台,搭配上数据挖掘的利器R环境, 堪称是一个完美的大数据分析挖掘的工作环境。



资源包下载地址:

http://pan.baidu.com/s/1gdtnZPp


安装

首先hadoop 以及hive 的安装这里就跳过了。这里主要介绍在Centos 中如何安装R 语言以及如何集成Rhive 到hadoop 中。

本次实验节点有8个因此我们需要在每个节点中安装R 以及相应的其他模块首先我们来看看如何安装R 

下载资源包中的 R-3.2.0.tar.gz 并解压

编译前确保安装如下模块

执行命令:

 yum install gcc-gfortran  gcc gcc-c++ libXt-devel  openssl-devel  readline-devel 

RHive 依赖于Rserve,因此在编译安装R的时候主要使用参数 --disable-nls --enable-R-shlib:

cd R-3.2.0/
./configure --disable-nls --enable-R-shlib
make
make install
cd ../

执行R 命令进行rJAVA 、RHive 等模块的安装

R CMD INSTALL rJava_0.9-6.tar.gz
R CMD INSTALL Rserve_1.8-3.tar.gz 
R CMD INSTALL RHive_2.0-0.10.tar.gz

说明:如果你有多个节点,请在每个节点 和master 中均安装上述模块

注意 之前安装

RHive_2.0-0.2.tar.gz该版本的在执行rhive.export()等操时候会报错

“Error: java.io.IOException: Mkdirs failed to create /rhive/udf/hue”

主要是版BUG ,我们安装新版本

RHive_2.0-0.10.tar.gz

即可。删除  /usr/local/lib64/R/library/RHive 重新安装,然后 scp 到各个节点。


到此安装结束,我们进入环境配置部分。


配置

1. 新建RHIVE 数据存储路径(本地的非HDFS)

我这里保存在 /www/store/rhive/data

2.新建Rserv.conf 文件并写入 “remote enable” 保存到你指定的目录

我这里存放在 /www/cloud/R/Rserv.conf


3.修改各个节点以及master 的 /etc/profile 新增环境变量

export RHIVE_DATA=/www/store/rhive/data

4.将R目录下的lib目录中所有文件上传至HDFS 中的/rhive/lib 目录下(如果目录不存在手工新建一下即可)

cd /usr/local/lib64/R/lib

hadoop fs -put ./* /rhive/lib


启动

1.在所有节点和master 上执行

R CMD Rserve --RS-conf /www/cloud/R/Rserv.conf
telnet cloud01 6311
然后在Master节点telnet所有slave节点,显示 Rsrv0103QAP1 则表示连接成功

2.启动hive远程服务: rhive是通过thrift连接hiveserver的,需要要启动后台thrift服务,即:在hive客户端启动hive远程服务,如果已经开启了跳过本步骤

nohup hive --service hiveserver &


Rhive 测试

library(RHive)
rhive.connect("master", 10000,hiveServer2=TRUE)


测试2:

library(RHive)
rhive.connect("cloud-master", defaultFS='hdfs://cloud-master:9100',hiveServer2=TRUE,user="hue")
rhive.use.database('data_w')

xsd <- function(a,b)	{
a+b
}
rhive.assign("xsd",xsd)
rhive.export("xsd")
rhive.query("SELECT R('xsd',a,b,0.0) as t from yqj_test")
rhive.close()

完毕!

最后附上RHive 相关文档地址

https://github.com/nexr/RHive/wiki/User-Guide


本文参考地址:

http://yangqijun.com/archives/341

http://www.cnblogs.com/end/archive/2013/02/18/2916105.html

【R】CentOS7下Rstudio实践初探及遇到的问题 二(连接hive)

缘起连接hive,似乎在网络上已经找不到正确的配置和下载了。 因此只能根据官方的来。分析首先直接install package的时候,编译RHive,提示找不到。...
  • lsttoy
  • lsttoy
  • 2017年01月12日 13:21
  • 792

RHive基础函数

加载RHivelibrary(RHive)在加载之前,首先要配置HADOOP_HOME和HIVE_HOME环境变量。 也可临时设置环境变量:Sys.setenv(HIVE_HOME=”/servic...
  • littlely_ll
  • littlely_ll
  • 2017年04月28日 10:36
  • 337

linux系统安装R\RHive

安装R 1 下载R安装包 wget http://ftp.ctex.org/mirrors/CRAN/src/base/R-2/R-2.15.0.tar.gz . 2 安装R ./configure...
  • yucan1001
  • yucan1001
  • 2014年03月19日 22:51
  • 4390

用RHive从历史数据中提取逆回购信息

前言 接触金融时间并不太长,对我来说第一个操作的业务,就是逆回购。逆回购对于大部分人来说,都是一个新鲜词,就算是炒股多年的玩家,可能也是在2013年6月份发生银行缺钱的事件之后才了解的。隔夜的银行间...
  • u014032673
  • u014032673
  • 2014年12月19日 20:44
  • 470

Hadoop之——CentOS7上Hadoop 2.6.0集群的安装与配置

1.CentOS7安装 (1)最小化安装CentOS7 (2)配置网络连接 vi/etc/sysconfig/network-scripts/ifcfg-eth0 修改:BOOTPROTO=stati...
  • l1028386804
  • l1028386804
  • 2015年05月15日 09:57
  • 3280

centos安装配置hadoop超详细过程

1、集群部署介绍   1.1 Hadoop简介             Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDF...
  • achuo
  • achuo
  • 2016年04月16日 23:10
  • 3155

Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程~(心血之作啊~~)

历时一周多,终于搭建好最新版本hadoop2.2集群,期间遇到各种问题,作为菜鸟真心被各种折磨,不过当wordcount给出结果的那一刻,兴奋的不得了~~(文当中若有错误之处或疑问欢迎指正,互相学习)...
  • licongcong_0224
  • licongcong_0224
  • 2013年10月23日 16:27
  • 76139

【hadoop入门实战】Mac上安装hadoop,并运行程序(1)

安装hadoop
  • XBWer
  • XBWer
  • 2014年06月28日 23:43
  • 34822

搭建hadoop环境,CentOS6.5安装Hadoop2.7.3完整流程

转载地址:http://www.open-open.com/lib/view/open1435761287778.html 总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装...
  • u014019693
  • u014019693
  • 2016年11月11日 21:05
  • 5423

CentOS6.4配置Hadoop-2.6.0集群配置安装指南(经过实战演练)【张振华.Jack】

第一步:所需系统信息:64位CentOS系统 第二步:需要实现三台虚拟机之间ssh无密码登录 第三步:先配置一台Master.Hadoop是OK的(10.2.10.27作为主机);第四步:配置Hado...
  • tianya846
  • tianya846
  • 2014年12月26日 21:28
  • 5570
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Centos 安装R 集成 Hadoop、RHive 配置安装手册
举报原因:
原因补充:

(最多只允许输入30个字)