基于spark1.4.1的sparkR的实例操作

最新推荐文章于 2022-03-12 22:27:42 发布

kwu_ganymede

最新推荐文章于 2022-03-12 22:27:42 发布

阅读量1k

点赞数 1

分类专栏：数据分析挖掘 Spark 文章标签： spark R 实例

本文链接：https://blog.csdn.net/kwu_ganymede/article/details/49097553

版权

Spark 同时被 2 个专栏收录

71 篇文章 2 订阅

订阅专栏

数据分析挖掘

24 篇文章 3 订阅

订阅专栏

基于spark1.4.1的sparkR的实例操作，sparkR的操作基本语法与R一致，其中添加了rJava、rhdfs、SparkR的依赖库的支持。

1、集群启动SparkR

输入 bdcmagicR

关于启动脚本的封装参看： http://blog.csdn.net/bdchome/article/details/48092499

2、加载依赖库

[plain]view plaincopy 
   
 library("rJava")  
 library("rhdfs")  
 library("SparkR")  

按顺序依次加载

3、sparkR操作实例

1) 、基础的R语句

[plain]view plaincopy 
   
 x <- 0  
 for(i in 1:100){  
  x <- x+i  
 }  
 x  

2)、sparkR操作hdfs上的文件

上传文件，并查看

[plain]view plaincopy 
   
 hdfs.init()  
 hdfs.put("/opt/bin/jar/people.json","hdfs://nameservice1/tmp/resources/people2.json")  
 hdfs.cat("hdfs://nameservice1/tmp/resources/people.json")  

sparkR操作该文件，找出年龄大于30的人

[plain]view plaincopy 
   
 sqlContext <- sparkRSQL.init(sc)  
 path <- file.path("hdfs://nameservice1/tmp/resources/people2.json")  
 peopleDF <- jsonFile(sqlContext, path)  
 printSchema(peopleDF)  
 registerTempTable(peopleDF, "people")  
 teenagers <- sql(sqlContext, "SELECT name FROM people WHERE age > 30")  
 teenagersLocalDF <- collect(teenagers)  
 print(teenagersLocalDF)  
   
 sparkR.stop()  

返回结果：

最后需要关闭 sparkR.stop()

3)、通过sparkR操作spark-sql以hive的表为对象

[plain]view plaincopy 
   
 hqlContext <- sparkRHive.init(sc)  
 showDF(sql(hqlContext, "show databases"))  
 showDF(sql(hqlContext, "select * from ods.tracklog where day='20150815' limit 15"))  
 result <- sql(hqlContext, "select count(*) from ods.tracklog where day='20150815' limit 15")  
 resultDF  <- collect(result)  
 print(resultDF)  
 sparkR.stop()