spark
文章平均质量分 78
THE WHY
擅长微信小程序开发,正在学习数据分析,大数据开发相关内容,有需要可以找我~
展开
-
PySpark基础入门(1):基础概念+环境搭建
pyspark基础知识学习第一篇,介绍了spark的基础概念以及PySpark的环境搭建,包括local,standAlone以及spark on yarn原创 2023-05-01 19:11:05 · 4218 阅读 · 2 评论 -
PySpark基础入门(5):Spark 内核调度
Spark任务调度:如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stage,将每个Stage中的任务发到指定节点运行原创 2023-05-04 16:21:51 · 654 阅读 · 0 评论 -
PySpark基础入门(3):RDD持久化
RDD的持久化:RDD 的数据是过程数据,因此需要持久化存储; RDD之间进行相互迭代的计算,新的RDD的生成代表着旧的RDD的消失;这样的特性可以最大化地利用资源,老旧地RDD可以及时地从内存中清理原创 2023-05-03 10:23:59 · 885 阅读 · 1 评论 -
PySpark基础入门(4):RDD共享变量
广播变量:作用是将本地的list对象标识为广播变量对象;累加器:作用是从各个executor对象中收集运行结果并作用于其自身(类似于内存指针)原创 2023-05-03 10:26:13 · 581 阅读 · 0 评论 -
PySpark基础入门(2):RDD及其常用算子
PySpark基础入门第二篇,主要介绍了RDD的基础内容以及常用算子,包括transformation算子,action算子以及一些分区操作算子原创 2023-05-02 16:57:17 · 1564 阅读 · 0 评论 -
PySpark基础入门(6):Spark Shuffle
Shuffle是连接map和reduce之间的桥梁,它将map的输出对应到reduce输入中,涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等原创 2023-05-06 17:55:11 · 822 阅读 · 0 评论 -
PySpark基础入门(7):Spark SQL
SparkSQL 是Spark的一个模块, 用于处理海量结构化数据;PySpark使用DataFrame进行数据抽象,是一个二维表数据结构,适用于分布式集合原创 2023-05-08 10:35:20 · 1553 阅读 · 0 评论 -
PySpark基础入门(8):Spark SQL(内容补充)
目前SparkSQL只支持UDF和UDAF,而pyspark只支持UDF①sparksession.udf.register(参数1,参数2,参数3)参数1:UDF名称,可用于SQL风格参数2:被注册成UDF的方法名参数3:声明UDF的返回值类型返回值是一个udf对象,可用于DSL风格# UDF# 在SQL风格中使用:df.selectExpr("udf1(num)").show() # selectExpr方法可以接受SQL语句表达式# 在DSL风格中使用②使用。原创 2023-05-09 19:17:56 · 1004 阅读 · 0 评论