Spark
文章平均质量分 71
马小胖测试历险记
卑微测试从业者,愿生活里没有bug!
展开
-
基于测试人员角度学习Spark(二)
一、RDD概述 1、 RDD是最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合,具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性,允许用户在执行多个查询时显式的将工作集缓存在内存中,后续的查询能够重用工作集,提升了查询速度。 2、RDD属性: 一组分片,数据集的基本组成单位,用户可以创建RDD时指定RDD的分片个数,如果没有指定,就会采取默认值 一个计算每个分区的函数,spark的计算是以分片为单位的,每个RDD都会实现计算函数以达到这个目的,而c...原创 2021-01-12 13:07:23 · 100 阅读 · 0 评论 -
基于测试人员角度学习Spark(一)
一、为什么引用Spark,Spark是什么? 1、spark是什么,spark是一个实现快速通用的集群计算平台,通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序,他扩展了MapReduce,支持更多的计算模式,包括交互式查询和流处理,它的特点,能在内存中进行计算,及时依赖磁盘进行复杂的运算,比MapReduce更加高效,现在大部分公司的项目也都是应该基于Hadoop+Spark的模式 二、Spark的特性 高效性:使用最先进的DAG调度程序,查询优化程序和物理执行引擎,实现批量和流式数据原创 2021-01-10 20:42:50 · 102 阅读 · 0 评论