Spark
文章平均质量分 78
大数据东哥(Aidon)
这个作者很懒,什么都没留下…
展开
-
SparkSQL概述
SparkSQL,就是Spark生态体系中的构建在SparkCore基础之上的一个基于SQL的计算模块。SparkSQL的前身不叫SparkSQL,而是叫做Shark。最开始的时候底层代码优化、SQL的解析、执行引擎等等完全基于Hive,总是Shark的执行速度要比Hive高出一个数量级,但是Hive的发展制约了Shark。因此在15年中旬的时候,Shark的负责人将Shark项目结束掉,重新独立出来的一个项目,就是SparkSQL。本文涵盖SparkSQL介绍、发展历程、特点和总结等内容。原创 2024-05-09 16:20:45 · 339 阅读 · 0 评论 -
Python版Spark core详解
Apache Spark 是一种快速、通用、可扩展的大数据分析引擎。项目使用Scala语言进行编写,并提供了包括Scala、Python、Java在内的多种语言的编程接口。本文内容翔实,包括Spark环境部署、Spark介绍、Spark集群安装部署、Spark作业提交、SparkCore编程、RDD介绍、RDD创建、RDD基本操作、RDD案例、SparkCore高级编程、RDD依赖、RDD任务划分、RDD持久化机制、累加器、广播变量和Shuffle原理等。原创 2024-05-09 16:14:50 · 543 阅读 · 0 评论 -
Spark java.io.NotSerializableException
Spark core将数据写入MySQL,出现Caused by: java.io.NotSerializableException: com.mysql.cj.jdbc.DatabaseMetaData异常,解决数据反序列化问题,本文将使用两种方案解决其具体问题。原创 2024-04-24 14:50:48 · 648 阅读 · 3 评论 -
Spark SQL的生命旅程之底层解析
Spark SQL语句是如何被解析的?Spark SQL是如何转换为代码被机器执行的?Spark SQL从逻辑计划到物理计划的转换经历了怎样的优化?Antlr4强大语法解析生成器做什么?原创 2023-01-31 09:29:54 · 367 阅读 · 0 评论 -
Spark 数据倾斜调优10策
Spark 数据倾斜调优。何谓数据倾斜?数据倾斜指的是并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。原创 2022-12-05 19:00:56 · 582 阅读 · 0 评论 -
Spark Catalyst 查询优化器原理
Catalyst本质就是一个SQL查询的优化器,而且和大多数当前的大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)等)。了解Catalyst的SQL优化流程,也就基本了解了所有其他SQL处理引擎的工作原理。原创 2022-12-01 21:20:24 · 363 阅读 · 0 评论