spark入门

本文介绍了Spark的基本概念,包括其作为大规模数据处理引擎的特点和速度优势。深入讲解了Spark生态圈,核心架构设计,特别是RDD的概念和算子类型。此外,还探讨了Spark的不同运行模式及用户交互方式,并提供了Java实现Spark WordCount的示例。
摘要由CSDN通过智能技术生成

1.spark是什么

spark为大规模数据处理而设计的快速通用的计算引擎。

2.特点

速度快,内存计算下 spark比hadoop快100倍
易用性:80多个高级运算符 支持java,scala,Python,R,sql
通用性:提供大量库,例如sql,dataframes等 可在同一个应用程序无缝编写程序
支持多种资源管理器:hadoop、yarn、apache、mesos

3.spark生态圈

在这里插入图片描述

4.spark core架构设计图

在这里插入图片描述

4.1相关术语
1)RDD:弹性分布式数据集,是一组只读、可分区的分布式数据集合
2)Partition:计算是以partition为单位进行的,o 一个Partition交给一个Task去计算处理
3)算子:对任何函数进行某一项操作都可以认为是一个算子,算子即为映射、关系、变换
4)Transformation类算子:操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值