[R]高性能计算SparkR

最新推荐文章于 2022-06-01 14:47:54 发布

weixin_34245749

最新推荐文章于 2022-06-01 14:47:54 发布

阅读量185

点赞数

文章标签：大数据前端人工智能 ViewUI

原文链接：https://yq.aliyun.com/articles/618665

版权

Why SparkR

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

而Spark力图整合机器学习（MLib）、图算法（GraphX）、流式计算（Spark Streaming）和数据仓库（Spark SQL）等领域，通过计算引擎Spark，弹性分布式数据集（RDD），架构出一个新的大数据应用平台。

SparkR 是一个提供轻量级前端的 R 包，在 R 的基础上加入了 Spark 的分布式计算和存储等特性。在 Spark 1.6.1 中，SparkR 提供了一个分布式数据框（DataFrame）的实现，它能够支持诸如选取、过滤和聚集等操作。这个特性与 R 语言自身提供的特性类似，但 SparkR 能够作用于更大规模的数据集。SparkR 是一个提供轻量级前端的 R 包，在 R 的基础上加入了 Spark 的分布式计算和存储等特性。汇集了spark和R本身的诸多优点，如下图。

SparkR是什么.png

SparkR的架构.png

How to use it？

SparkR特有SparkDataFrame

SparkDataFrame的特点.png

SparkDataFrame的例子.png

SparkDataFram要实现MapReduce的函数式操作

dapply
dapplyCollect
gapply
其中dapply的框架如下图所示：

dapply的框架.png

dapply 的用法：

dapply(x,fun,schema)
dapply(x,fun)
把fun函数应用到SparkDataFrame的每一个数据切片，然后把结果收集回本机成为data.frame；
R函数的输入、输出均为data.frame
指定schema，R函数输出必须匹配schema
example:

df <- creatDataFrame(sqlContext,mtcars)
df1 <- dapply(df,functuion(x){x+1},schema(df))

dapplyCollect
其中dapply的框架如下图所示：

ldf <- dapplyCollect(df,function(x){x+1})

weixin_34245749

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_34245749 CSDN认证博客专家 CSDN认证企业博客

码龄9年

156: 原创

-: 周排名

73万+: 总排名

274万+: 访问

: 等级

8093: 积分

4912: 粉丝

202: 获赞

15: 评论

1289: 收藏

私信

关注

热门文章

最新评论

为何float有效位数为7位？
水中贵族派大星: 每个float都可以表示为1.xxxx.2^n，即符号位指数位尾数位除了0这一特殊情况，尾数位23位，实际应是25位，我们可以把1.省略掉不进行存储，使用时直接给xxx前面填上就行了
mac 邮件自动归类
2301_76771281: 大咖,你好! 我也是这种方法设置的, 设置了很多个指定文件夹,但是很奇怪所有的邮件来直接去另一个不对称的文件夹,这个是怎么回事
为何float有效位数为7位？
cdalearner: [code=csharp] #include <stdio.h> void main(void) { float f1=12345.67f; printf("%f\n",f1);/* return:12345.669922 */ } [/code] 输入值和返回的数值只有6位有效数字相同。这个反例如何解释？......
顾维灏谈百度地图数据采集：POI自动处理率达90%
nandou_xinxi: 地图客户采集工具(找客户、开店选址、调研市场)必备工具软件下载地址: https://www.nandou-china.com/mapPoiExport.html
为何float有效位数为7位？
iamsobrave: 这个涉及到计组里的知识。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。