spark java_Spark基础与Java Api介绍

最新推荐文章于 2024-05-24 17:56:33 发布

13588711687

最新推荐文章于 2024-05-24 17:56:33 发布

阅读量545

点赞数

文章标签： spark java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33826897/article/details/114026815

版权

原文引自：http://blog.csdn.net/u011497897/article/details/71440323

一、Spark简介

1、什么是Spark

发源于AMPLab实验室的分布式内存计算平台，它克服了MapReduce在迭代式计算和交互式计算方面的不足。

相比于MapReduce，Spark能充分利用内存资源提高计算效率。

2、Spark计算框架

Driver程序启动很多workers,然后workers在(分布式)文件系统中读取数据后转化为RDD(弹性分布式数据集)，最后对RDD在内存中进行缓存和计算

3、为什么Spark计算速度快

(1)内存计算

(2)优化执行计划

4、Spark Api语言支持

(1)Scala

(2)Java

(3)Python

5、怎么运行Spark

Local本地模式、Spark独立集群、Mesos、Yarn-Standalone、Yarn-Client

二、编程模型

1、RDD(弹性分布式数据集)是什么

只读的、分块的数据记录集合

可以通过读取来不同存储类型的数据进行创建、或者通过RDD操作生成(map、filter操作等)

使用者只能控制RDD的缓存或者分区方式

RDD的数据可以有多种类型存储方式(可(序列化)存在内存或硬盘中)

2、RDD 存储类型

RDD可以设置不同类型存储方式，只存硬盘、只存内存等。

3、RDD操作

Transformation：根据已有RDD创建新的RDD数据集build

Action：在RDD数据集运行计算后，返回一个值或者将结果写入外部存储

4、RDD如何创建

首先创建JavaSparkContext对象实例sc

JavaSparkContext sc = new JavaSparkContext("local","SparkTest");

接受2个参数：

第一个参数表示运行方式(local、yarn-client、yarn-standalone等)

第二个参数表示应用名字

直接从集合转化 sc.parallelize(List(1,2,3,4,5,6,7,8,9,10))

从HDFS文件转化 sc.textFile("hdfs://")

从本地文件转化 sc.textFile("file:/")

下面例子中list2就是根据data2List生成的一个RDD

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark java_Spark基础与Java Api介绍

原文引自：http://blog.csdn.net/u011497897/article/details/71440323一、Spark简介1、什么是Spark发源于AMPLab实验室的分布式内存计算平台，它克服了MapReduce在迭代式计算和交互式计算方面的不足。相比于MapReduce，Spark能充分利用内存资源提高计算效率。2、Spark计算框架Driver程序启动很多workers,然...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。