Spark分布式离线计算引擎
离线计算体系
留不住的人
PHP是世界上最美的语言
展开
-
RDD关联函数join与leftOuterJoin与rightOuterJoin与fullOuterJoin详解
RDD关联函数join与leftOuterJoin与rightOuterJoin与fullOuterJoin详解。原创 2023-05-26 12:44:01 · 484 阅读 · 0 评论 -
RDD聚合函数reduce与fold与aggregate详解
RDD聚合函数reduce与fold与aggregate详解。原创 2023-05-26 12:43:20 · 335 阅读 · 0 评论 -
RDD重分区函数repartition与coalesce与partitionBy详解
RDD重分区函数repartition与coalesce与partitionBy详解。原创 2023-05-26 11:27:56 · 652 阅读 · 0 评论 -
RDD分区函数mapPartitions与foreachPartition解析
总结: 建议在使用map和foreach的时候, 建议更换mapPartitions和foreachPartition, 尤其是在函数中存在一些与资源相关的操作, 比如说 数据库的连接, IO操作。演示 foreach和foreachPartition函数。非分区函数: 作用在每个分区的每一个元素上。分区函数: 作用在每一个分区上。原创 2023-05-26 10:59:54 · 387 阅读 · 0 评论 -
RDD动作算子count与foreach与takeSample详解
【代码】RDD动作算子count与foreach与takeSample详解。原创 2023-05-24 17:29:06 · 204 阅读 · 0 评论 -
RDD动作算子first与take与top详解
【代码】RDD动作算子first与take与top详解。原创 2023-05-24 17:21:44 · 437 阅读 · 0 评论 -
RDD动作算子collect与reduce详解
【代码】RDD动作算子collect与reduce详解。原创 2023-05-24 17:20:22 · 233 阅读 · 0 评论 -
RDD转换算子countByKey 和 countByValue详解
【代码】RDD转换算子countByKey 和 countByValue详解。原创 2023-05-24 17:17:52 · 187 阅读 · 0 评论 -
RDD转换算子sortByKey详解
【代码】RDD转换算子sortByKey详解。原创 2023-05-24 17:08:24 · 228 阅读 · 0 评论 -
RDD转换算子reduceByKey详解
【代码】RDD转换算子reduceByKey详解。原创 2023-05-24 17:05:42 · 181 阅读 · 0 评论 -
RDD转换算子groupByKey详解
【代码】RDD转换算子groupByKey详解。原创 2023-05-24 17:04:26 · 103 阅读 · 0 评论 -
RDD转换算子union(并集) 和 intersection(交集)详解
【代码】RDD转换算子union(并集) 和 intersection(交集)详解。原创 2023-05-24 17:02:21 · 267 阅读 · 0 评论 -
RDD转换算子flatMap详解
【代码】RDD转换算子flatMap详解。原创 2023-05-24 16:59:30 · 264 阅读 · 0 评论 -
RDD的转换算子filter详解
【代码】RDD的转换算子filter详解。原创 2023-05-24 15:29:37 · 307 阅读 · 0 评论 -
RDD的转换算子groupBy详解
【代码】RDD的转换算子groupBy详解。原创 2023-05-24 15:30:00 · 380 阅读 · 0 评论 -
RDD的转换算子map详解
【代码】RDD的转换算子map详解。原创 2023-05-24 15:27:23 · 220 阅读 · 0 评论 -
RDD的基本介绍及五大特性和五大特点
RDD: 弹性分布式数据集出现目的: 为了能够支持更加高效的迭代计算操作早期的计算模型: 单机计算模型例如: MySQL / Excel单机的计算模型仅适合于: 小量数据集的处理操作在计算操作的时候 只有一个进程, 在一个进程中通过不断的迭代完成最终的计算操作随着不断的发展, 整个数据体量都在不断的增大, 原有单机的计算模型无法应对未来的数据处理需求, 怎么办?分布式计算模型。原创 2023-05-24 15:15:48 · 2381 阅读 · 0 评论 -
WordCount入门案例
【代码】WordCount入门案例。原创 2023-05-21 22:26:06 · 42 阅读 · 0 评论 -
Spark的基本介绍
定义: Spark是一款用于大规模数据处理分布式的分析引擎MR: 是一款用于大规模数据处理分布式的分析引擎MR存在的弊端:1- 使用API相对比较低级: 大量的功能代码都需要程序员自己来实现2- 计算效率慢: 大量的经过磁盘和内存之间的交互, 基于磁盘计算 IO比较大 (IO密集型框架)3- 迭代计算非常不方便什么是迭代计算:在计算过程中, 需要将计算流程划分为N个阶段, 每个阶段之间互相依赖, 后一个阶段必须等待前一个阶段执行完成后, 然后才能执行下一个阶段。原创 2023-05-18 00:07:51 · 209 阅读 · 0 评论