Spark
文章平均质量分 50
做一只精致IT小白
这个作者很懒,什么都没留下…
展开
-
【Spark】02.Spark-IDEA配置
1.基于jdk1.8创建一个maven项目 2.增加scala-sdk Project Structure - Platform Settings - Global Libraries 3.增加Spark的Maven依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-c原创 2022-03-17 10:14:45 · 2165 阅读 · 0 评论 -
【Spark】01.Spark框架
Spark是一种由Scala语言开发的快速、通用、可扩展打大数据分析引擎,Spark更倾向于计算。 一次性数据计算 框架在处理数据的时候,会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到介质中。 因此,MapReduce不适合迭代式数据开发。 但是Spark基于内存,当资源受到限制的时候,还是需要依赖MapReduce,因此不能完全代替。 SparkCore 提供Spark最基础与核心的功能,以下功能都是基于Core进行扩展 SparkSQL Spark用来操作结构化数据 SparkStre原创 2022-03-16 22:56:08 · 1737 阅读 · 0 评论 -
Spark-SparkSQL与DataFrame的本质
SparkSQL与DataFrame 一、SparkSQL之所以是除了SparkCore以外最大的和最受关注的组件,原因如下: 处理一切存储介质和各种格式的数据(同时可以方便的扩展SparkSQL的功能来支持更多类型的数据,例如Kudu) Spark SQL把数据仓库的计算能力推向新的高度,不仅是计算速度(Spark SQL比Shark快了至少一个数量级,而Shark比Hive快了至少一个数量级...原创 2019-11-06 20:56:58 · 179 阅读 · 0 评论 -
Spark-Apache Spark3.0.Dynamic Partition Pruning
静态分区裁剪[Static Partition Pruning] 用过Spark的同学知道,SparkSQL在查询的时候支持分区裁剪,比如: select * from Sales where day_of_week = ‘Mon’ Spark会自动进行以下的优化: 从上图可以看到 Spark在编译SQL的时候自动将Filter算子下推到数据源,也就是在Scan前进行了Filter操作,将day...原创 2019-11-05 15:24:19 · 296 阅读 · 0 评论