林子雨-Spark入门教程(Python版)-学习笔记（一）

最新推荐文章于 2024-05-08 00:43:26 发布

SummerHmh

最新推荐文章于 2024-05-08 00:43:26 发布

阅读量3.3k

点赞数 4

分类专栏：大数据 SPARK

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SummerHmh/article/details/90146991

版权

第1章 Spark的设计与运行原理

简介

hadoop中计算框架MapReduce的缺点：

表能能力有限，计算都必须要转化成Map和Reduce两个操作，难以表示复杂场景
IO开销大，中间结果写入到磁盘中，每次执行时都需要从磁盘读取数据
延迟高，IO读取耗时，同时任务串行进行，等待时间长

于是，引入了SPARK：

更多操作算子，计算模式虽然也属于MapReduce，但具备更多算子
内存计算，中间结果直接放到内存中，避免了从磁盘中频繁读取数据，带来了更高的迭代运算效率
DAG的任务调度执行机制，要优于MapReduce的迭代执行机制
任务是基于线程的，相对MapReduce基于进程的方式更高效

spark生态系统
在这里插入图片描述

运行架构

主从模式，硬件上：master-slave ，软件上：driver-executor
基本概念

RDD：弹性分布式数据集（Resilient Distributed Dataset）的简称，是不可变的分布式对象集合，每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。本质上是一个只读的分区记录集合
DAG ：有向无环图，描述RDD的血缘关系

最低0.47元/天解锁文章

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
林子雨-Spark入门教程(Python版)-学习笔记（一）

第1章 Spark的设计与运行原理简介hadoop中计算框架MapReduce的缺点：表能能力有限，计算都必须要转化成Map和Reduce两个操作，难以表示复杂场景IO开销大，中间结果写入到磁盘中，每次执行时都需要从磁盘读取数据延迟高，IO读取耗时，同时任务串行进行，等待时间长于是，引入了SPARK：更多操作算子，计算模式虽然也属于MapReduce，但具备更多算子内存计算，...
复制链接

扫一扫

专栏目录

SummerHmh CSDN认证博客专家 CSDN认证企业博客

码龄5年

71: 原创

32万+: 周排名

80万+: 总排名

3万+: 访问

: 等级

1030: 积分

13: 粉丝

16: 获赞

3: 评论

58: 收藏

私信

关注

热门文章

分类专栏

最新评论

随机森林
虚幻私塾: 这么详细，花了多少时间哦，太厉害了，流弊
pyspark之DataFrame写hive表方式
西门郡丞: 为什么我在使用静态分区插入的时候，仍然得到如下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o264.saveAsTable. : org.apache.spark.SparkException: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict at org.apache.spark.sql.hive.execution.InsertIntoHiveTable.processInsert(InsertIntoHiveTable.scala:157) at org.apache.spark.sql.hive.execution.InsertIntoHiveTable.run(InsertIntoHiveTable.scala:99) at org.apache.spark.sql.hive.execution.CreateHiveTableAsSelectCommand.run(CreateHiveTableAsSelectCommand.scala:88) at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult$lzycompute(commands.scala:104) at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult(commands.scala:102) 插入语句： df.write.mode("append").format("Hive").partitionBy("advertiser", "begindate").saveAsTable("warehouse.warehouse_order_log_test")
《ERNIE: Enhanced Language Representation with Informative Entities》浅析
∞+1: 很赞！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。