CDH5.5上安装Rhadoop,RStudio server版初始化SparkR

5 篇文章 0 订阅
4 篇文章 0 订阅

CDH的很少看到有资料介绍,看到官方文档明确不支持sparkR。

然后在看到Rhadoop的一些博客,舍弃CDH自带的spark stack,使用Apache上最新的spark1.5.2,直接下载放在节点上,采用spark on yarn的方式调用hadoop资源。

需要做的只是把hadoop,hive的配置拷贝到spark的conf下。免去安装spark集群的工作。


################

RStudio 在linux上安装以后,如何调用sparkR?找了很久,没什么资料,看到一个AWS上的帖子,顿然开朗。


http://www.tuicool.com/articles/Br67rmJ


看到关键的一段。


################


以下是RStudio中执行。

###############

print('Now connecting to Spark for you.') 

#加载包
library("rJava")  
library("rhdfs")
library("SparkR")
#环境变量
.libPaths(c(.libPaths(), '/opt/hadoop/spark-latest/R/lib')) 
Sys.setenv(SPARK_HOME = '/opt/hadoop/spark-latest') 
Sys.setenv(PATH = paste(Sys.getenv(c('PATH')), '/opt/hadoop/spark-latest/bin', sep=':')) 
Sys.setenv(HADOOP_CMD="/opt/cloudera/parcels/CDH/bin/hadoop")
Sys.setenv(HADOOP_HOME="/opt/cloudera/parcels/CDH/lib/hadoop")
Sys.setenv(HADOOP_CONF_DIR="/etc/hadoop/conf")
Sys.setenv(HIVE_HOME="/opt/cloudera/parcels/CDH/lib/hive")
Sys.setenv(SCALA_HOME="/opt/hadoop/scala-latest")
#初始化
sc <- sparkR.init("yarn-client", "SparkR", "/opt/hadoop/spark-latest",list(spark.executor.memory="1g"))
sqlContext <- sparkRSQL.init(sc)
print('Spark Context available as \"sc\". \\n')
print('Spark SQL Context available as \"sqlContext\". \\n')


################################################


#测试读取hive表格


hiveContext <- sparkRHive.init(sc)
results <- sql(hiveContext, "select countrycode,year,growtheingini,privcreavg from external_bz2_tbl_6005 limit 10")
head(results)

################################################



  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值