Spark重温笔记
文章平均质量分 92
卡林神不是猫
一枚大数据小学徒,正在大数据学习之路上摸索前行……
展开
-
Spark重温笔记(五):SparkSQL进阶操作——迭代计算,开窗函数,结合多种数据源,UDF自定义函数
1-定义series函数2-pandas_udf自定义函数和类型,或者@pandas_udf3-将series数据源转化为dataframe格式import os# 当存在多个版本时,不指定很可能会导致出错print("普通的集合的基本series相乘:")# 提出问题:如果使用上面的方式仅仅可以处理单机版本的数据,对于分布式数据无法使用上述函数# 如何解决,这时候通过pandas_udf,将pandas的series或dataframe和Spark并行计算结合。原创 2024-03-26 22:35:36 · 1921 阅读 · 15 评论 -
Spark重温笔记(四):秒级处理庞大数据量的 SparkSQL 操作大全,能否成为你的工作备忘指南?
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。sparkSQL的四个特性1-易整合:将sql查询与spark程序无缝混合,可以使用java、scala、python、R等语言的API操作。2-统一的数据访问:以相同的方式连接到任何数据源。3-兼容hive: 支持Hive HQL的语法,兼容hive(元数据库、SQL语法、UDF、序列化、反序列化机制)。原创 2024-03-25 21:54:51 · 1483 阅读 · 4 评论 -
Spark重温笔记(三):Spark在企业中为什么能这么强?——持久化、Checkpoint机制、共享变量与内核调度原理全攻略“
今天是温习 Spark 的第 3 天啦!主要梳理了 Spark 核心数据结构:RDD(弹性分布式数据集),包括RDD持久化,checkpoint机制,spark两种共享变量以及spark内核调度原理,希望对大家有帮助!Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!原创 2024-03-24 19:27:20 · 826 阅读 · 4 评论 -
Spark重温笔记(二):快如闪电的大数据计算框架——你真的了解SparkCore的 RDD 吗?(包含企业级搜狗案例和网站点击案例)
最全面的SparkCore系列案例数据集1-分区列表:RDD是由一些列分区组成的2-计算函数3-依赖关系:比如reduceByKey依赖于map依赖于flatMap4-key-value的分区器:默认分区是hash分区,可以变更为range分区等5-位置优先性: 按照"移动数据不如移动计算"的理念,Spark在进行任务调度的时候,会尽可能选择那些存有数据的worker节点来进行任务计算。(数据本地性)原创 2024-03-22 17:47:25 · 1162 阅读 · 12 评论 -
Spark重温笔记(一):一分钟部署PySpark环境,轻松上手Spark配置
Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校。1-速度快:其一、Spark处理数据时,可以将中间处理结果数据存储到内存中其二、spark job调度以DAG方式,每个任务Task以线程Thread方式,而不是mapreduce以进程process方式2-易于使用:Spark 的版本已经更新到(截止日期2021.06.01),支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。原创 2024-03-21 21:57:52 · 3460 阅读 · 3 评论