Spark
文章平均质量分 82
Spark是基于内存计算的分布式计算引擎。在中间经过穿甲算子、转换算子、行动算子。其中可以读取文件、数据库、自创建数据作为算子。可以将内容直接打印、基于文件、基于数据库输出。
swg321321
这个作者很懒,什么都没留下…
展开
-
Spark构建DAG(有向无环图)
Spark构建RDDDAG,将RDDDAG的拆分,拆分后DAGScheduler,DAGScheduler转换为TaskScheduler,TaskScheduler到具体的Worker和Task执行。原创 2022-07-06 21:20:04 · 4024 阅读 · 1 评论 -
Spark原理与架构
Spark架构,Spark运行模式、Spark运行流程。原创 2022-06-26 20:20:45 · 761 阅读 · 0 评论 -
Spark处理Dataset中数据
Java Spark flatMap,Map,filter,Orc,Parquet。其中flatMap一个对象转多个对象。map一个对象转一个对象。Spark文件写到HDFS文件上。Dataset执行类似SQL查询。Spark写出按照自己想要的顺序写出原创 2022-06-23 16:02:08 · 2296 阅读 · 0 评论 -
Spark执行HiveSQL以及Hive自定义函数
Spark执行HiveSQL,其中包括执行Hive自定义函数。Spark读取文件。包含Spark SQL等生成可执行的RDD,执行优化,Catalog原创 2022-06-14 16:38:27 · 1540 阅读 · 0 评论