spark
文章平均质量分 82
# spark
roman_日积跬步-终至千里
做三四月的事,在八九月自有答案。
展开
-
【spark实战:报错】spark序列化报错:Kryo serialization failed: Buffer overflow
【报错】spark序列化报错:Kryo serialization failed: Buffer overflow原创 2024-05-07 14:02:37 · 489 阅读 · 0 评论 -
【spark RDD】spark 之 Kryo高性能序列化框架
【spark RDD】spark 之 Kryo序列化框架原创 2024-05-07 13:55:26 · 563 阅读 · 0 评论 -
【spark(零)】spark技术概览
【spark(零)】spark技术概览原创 2024-05-07 12:24:22 · 453 阅读 · 0 评论 -
【spark客户端】Spark SQL CLI详解:怎么执行sql文件、注释怎么写,支持的文件路径协议、交互式模式使用细节
【spark客户端】Spark SQL CLI详解:怎么执行sql文件、注释怎么写,支持的文件路径协议、交互式模式使用细节原创 2023-10-26 17:17:39 · 3562 阅读 · 0 评论 -
【spark streaming】spark(九)Spark Streaming Programming Guide:概述、wordcount、数据源、trans(常见算子、window)、输出源
【spark streaming】spark(九)Spark Streaming Programming Guide:概述、wordcount、数据源、trans(常见算子、window)、输出源原创 2022-10-07 17:19:05 · 476 阅读 · 0 评论 -
【spark sql】spark(八)sparkSQL概述:dataFrame、DataSet、UDF、SparkSQL数据源
【spark sql】sparkSQL概述:dataFrame、DataSet、UDF、SparkSQL数据源原创 2022-10-06 22:47:51 · 1274 阅读 · 0 评论 -
【shuffle/内存模型】spark(七)超详细mareduce shuffle和spark Shuffle讲解、以及spark比mapreduce快在哪些方面
【shuffle/内存模型】超详细mareduce shuffle和spark Shuffle讲解、以及spark比mapreduce快在哪些方面原创 2022-09-30 23:06:36 · 1508 阅读 · 0 评论 -
【变量】spark(六)变量共享:累加器和广播变量
【变量】spark(六)变量共享:累加器和广播变量原创 2022-09-26 20:45:00 · 500 阅读 · 0 评论 -
【算子3】spark(五):spark core:控制算子(cache、persist)、action算子和检查点
【算子3】spark(五):spark core:控制算子(cache、persist)、action算子和检查点原创 2022-09-26 11:49:30 · 922 阅读 · 0 评论 -
【算子2】spark(四):spark core:trans算子中key-value类型的算子使用说明
【算子2】spark(四):spark core:trans算子中key-value类型的算子使用说明原创 2022-09-25 18:04:48 · 460 阅读 · 0 评论 -
【算子1】spark(三):spark core:trans算子中value类型的算子使用说明
接下来的篇章我们会介绍不同类型的算子,本文介绍trans算子中value类型的算子使用。原创 2022-09-25 17:25:44 · 386 阅读 · 0 评论 -
【理论】(spark 二)spark core之RDD:基础概念、特点、stage任务划分与hello spark
通过了解RDD的概念、特点、以及以一个scala程序快速认识RDD原创 2022-09-25 15:22:44 · 599 阅读 · 0 评论 -
【概述】spark(一):spark特点、知识范畴、spark架构、任务提交流程、支持哪些运行环境
a. spark是继Hadoop的MapReduce之后,最具影响的大数据框架之一。与Hadoop相比,Spark基于Mapreduce将计算的中间结果内存化并引入DAG(有向无环图)执行引擎。是对Mapreduce的重大改进,中间数据压缩保存到内存,运算时间会比磁盘低两个数量级。是对RDD的建模,描述了RDD之间的依赖关系。b. Spark生态系统是以Spark core(RDD)为核心提供计算框架。原创 2022-09-23 17:05:30 · 2464 阅读 · 0 评论