spark
文章平均质量分 91
程序员劝退师丶
有道无术,术尚可求也,有术无道,止于术
展开
-
spark系列(三)spark RDD编程/算子介绍
httpsTransformation算子含义map(func)通过函数func传递源的每个元素,返回一个新的分布式数据集,将RDD中的每个元素进行处理,一进一出filter(func)对RDD中每个元素进行判断,返回true则保留flatMap(func)与map类似,但是每个元素都可以返回一个或多个新元素(func)func(func)funcfuncsample(,fraction,seed)fractionunion()()distinct([]))groupByKey([(...原创 2022-07-24 11:23:05 · 416 阅读 · 0 评论 -
spark系列(二)spark工作原理及常用操作
RDD通常通过Hadoop上的文件,即HDFS文件进行创建,也可以通过程序中的集合来创建RDD是Spark提供的核心抽象,全称为ResillientDistributedDataset,即弹性分布式数据集。原创 2022-07-19 14:53:26 · 359 阅读 · 0 评论 -
Spark系列(一)spark简介及安装配置
什么是Spark:Spark是一个用于大规模数据处理的统一计算引擎注意:Spark不仅仅可以做类似于MapReduce的离线数据计算,还可以做实时数据计算,并且它还可以实现类似于Hive的SQL计算,等等,所以说它是一个统一的计算引擎内存计算Spark中一个最重要的特性就是基于内存进行计算,从而让它的计算速度可以达到MapReduce的几十倍甚至上百倍2. spark特点:2.1 Speed:速度快由于Spark是基于内存进行计算的,所以它的计算性能理论上可以比MapReduce快100倍。原创 2022-07-13 16:08:14 · 6276 阅读 · 0 评论