Spark1

最新推荐文章于 2022-05-28 17:10:11 发布

initializeliu

最新推荐文章于 2022-05-28 17:10:11 发布

阅读量132

点赞数

分类专栏：大数据分布式开发文章标签： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42581821/article/details/103336189

版权

大数据分布式开发专栏收录该内容

32 篇文章 1 订阅

订阅专栏

Hadoop历史

2003,2004 Google2篇论文
2011年发布1.0版本
2012年发布稳定版
2013年发布2.x版本(Yarn）

MR的缺点：
mr基于数据集的计算，所以面向数据
1.基本运算规则从存储介质中获取（采集）数据，然后进行计算，最后将结果存储到介质中，所以主要应用于一次性计算，不适合于数据挖掘和机器学习这样的迭代计算和图形挖掘计算。
2.MR基于文件存储介质的操作，所以性能非常的慢
3.MR和Hadoop紧密耦合在一起，无法动态替换。

2013年发2.x版本(Yarn)
在这里插入图片描述

Spark历史

Spark基于Hadoop1.x架构思想，采用自己的方式改善Hadoop1.x中的问题，
Spark计算基于内存，并且基于Scala语法开发，所以天生适合迭代计算。
在这里插入图片描述

wordcount执行流程图

在这里插入图片描述

Yarn-client模式提交任务

在这里插入图片描述

相关概念

移动数据不如移动计算：优先位置
算子：从认知心理学角度，解决问题其实是将问题的初始状态，通过一系列的操作（Operate）（算子）对问题的状态进行转换，然后达到完成（解决）状态。
Spark中的所有的RDD方法都称为算子，分为两大类：action,transformation

RDD的创建

从外部存储中创建

Spark三大数据结构

RDD:分布式数据集
广播变量：分布式只读共享变量
累积器：分布式只写共享变量

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark1

Hadoop历史2003,2004 Google2篇论文2011年发布1.0版本2012年发布稳定版2013年发布2.x版本(Yarn）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。