Spark 学习笔记

最新推荐文章于 2024-07-03 07:15:00 发布

Jsm_ming

最新推荐文章于 2024-07-03 07:15:00 发布

阅读量234

点赞数

分类专栏：技术小白笔记记录文章标签： Spark 基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jsm_ming/article/details/91382487

版权

Spark

spark出现的契机：
　　Hadoop设计中在进行数据计算的时候要进行频繁的数据落地，因此出现磁盘IO瓶颈，在这种情况下，内存计算应运而生，spark的优势就是内存计算，在牺牲一部分内存的情况下，提高的效率是非常合算的

1. Spark的特点：

他是由scale编写，底层基于actor的模式akka框架，代码简洁
基于DAG（有向无环图）的执行引擎，减少了计算时频繁将数据写入到磁盘中，降低磁盘IO
同时建立在RDD（弹性分布式数据集）上，可以以一致的结构应对不同的大数据处理请求
RDD（弹性分布式数据集，Resilient Distributed Dataset）是spark处理数据的基础，和统一的数据结构，本质上是一种分布式数据结构
提供Cache机制来实现数据缓冲进一步提升性能
Spark的生态圈也越来越丰富
支持多种语言Java、Python、Scala、R
同时兼容HDFS作为存储结构，可以使用YARN作为协调框架

2. RDD（弹性分布式数据集）

RDD，是Spark的核心抽象，表示用于并行计算，不可修改，对数据集合进行分区的分布式数据结构。不同来源的数据都可以经过变换变为RDD再进行Spark处理
RDD数据集全部或者部分缓冲到内存中，多次计

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 学习笔记

Sparkspark出现的契机：　　Hadoop设计中在进行数据计算的时候要进行频繁的数据落地，因此出现磁盘IO瓶颈，在这种情况下，内存计算应运而生，spark的优势就是内存计算，在牺牲一部分内存的情况下，提高的效率是非常合算的1. Spark的特点：他是由scale编写，底层基于actor的模式akka框架，代码简洁基于DAG（有向无环图）的执行引擎，减少了计算时频繁将数据写入到磁盘...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。