spark java_Spark基础与Java Api介绍

原文引自:http://blog.csdn.net/u011497897/article/details/71440323

一、Spark简介

1、什么是Spark

发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。

相比于MapReduce,Spark能充分利用内存资源提高计算效率。

2、Spark计算框架

Driver程序启动很多workers,然后workers在(分布式)文件系统中读取数据后转化为RDD(弹性分布式数据集),最后对RDD在内存中进行缓存和计算

58b1f988807fbc88e05e2e4dbe25e2e4.png

3、为什么Spark计算速度快

(1)内存计算

(2)优化执行计划

4、Spark Api语言支持

(1)Scala

(2)Java

(3)Python

5、怎么运行Spark

Local本地模式、Spark独立集群、Mesos、Yarn-Standalone、Yarn-Client

二、编程模型

1、RDD(弹性分布式数据集)是什么

只读的、分块的数据记录集合

可以通过读取来不同存储类型的数据进行创建、或者通过RDD操作生成(map、filter操作等)

使用者只能控制RDD的缓存或者分区方式

RDD的数据可以有多种类型存储方式(可(序列化)存在内存或硬盘中)

2、RDD 存储类型

RDD可以设置不同类型存储方式,只存硬盘、只存内存等。

e193008b914b647d9e12723606594a96.png

3、RDD操作

Transformation:根据已有RDD创建新的RDD数据集build

Action:在RDD数据集运行计算后,返回一个值或者将结果写入外部存储

2abdb77fa659f5669b69ec7b21582f5f.png

4、RDD如何创建

首先创建JavaSparkContext对象实例sc

JavaSparkContext  sc = new JavaSparkContext("local","SparkTest");

接受2个参数:

第一个参数表示运行方式(local、yarn-client、yarn-standalone等)

第二个参数表示应用名字

直接从集合转化 sc.parallelize(List(1,2,3,4,5,6,7,8,9,10))

从HDFS文件转化 sc.textFile("hdfs://")

从本地文件转化 sc.textFile("file:/")

下面例子中list2就是根据data2List生成的一个RDD

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值