spark
tugangkai
四海皆为兄弟
展开
-
spark架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优...转载 2018-08-03 01:45:46 · 167 阅读 · 0 评论 -
RDD基本转换coalesce、repartition
coalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区,使用HashPartitioner。第一个参数为重分区的数目,第二个为是否进行shuffle,默认为false;以下面的例子来看:s...转载 2019-03-19 00:07:30 · 195 阅读 · 0 评论 -
Rdd操作partitionBy、mapValues、flatMapValues
partitionBydef partitionBy(partitioner: Partitioner): RDD[(K, V)]该函数根据partitioner函数生成新的ShuffleRDD,将原RDD重新分区。scala> var rdd1 = sc.makeRDD(Array((1,"A"),(2,"B"),(3,"C"),(4,"D")),2)rdd1: org.a...原创 2019-03-18 22:44:45 · 469 阅读 · 0 评论 -
Spark算子:统计RDD分区中的元素及数量
Spark RDD是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block数。可以利用RDD的mapPartitionsWithIndex方法来统计每个分区中的元素及数量。关于mapPartitionsWithIndex的介绍可以参考mapPartition...转载 2019-03-18 20:05:10 · 2702 阅读 · 0 评论 -
Rdd操作partitionBy、mapValues、flatMapValues
combineByKeydef combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, ...转载 2019-03-19 21:43:09 · 377 阅读 · 0 评论 -
spark的rdd算子cogroup,groupBy,groupByKey
Spark编程之基本的RDD算子之cogroup,groupBy,groupByKey1) cogroup [Pair], groupWith [Pair]首先来看一下它的api。def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))]def cog...原创 2018-11-18 00:44:36 · 6325 阅读 · 0 评论 -
spark的reduceByKey和groupByKey比较
在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。针对pair RDD这样的特殊形式,spark中定义了许多方便的操作,今天主要介绍一下reduceByKey和groupByKey,因为在接下来讲解《...转载 2018-11-17 17:12:42 · 559 阅读 · 0 评论 -
spark streaming核心原理及实践
在大数据的各种框架中,hadoop无疑是大数据的主流,但是随着电商企业的发展,hadoop只适用于一些离线数据的处理,无法应对一些实时数据的处理分析,我们需要一些实时计算框架来分析数据。因此出现了很多流式实时计算框架,比如Storm,Spark Streaming,Samaz等框架,本文主要讲解Spark Streaming的工作原理以及如何使用。一、流式计算1.什么是...转载 2018-11-20 00:28:26 · 506 阅读 · 0 评论 -
spark容错机制
【Spark】Spark容错机制 JasonDing 关注 2015.07.14 19...转载 2018-08-12 22:57:31 · 499 阅读 · 0 评论 -
Spark:Spark-sql 读hbase
SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合 目录:SparkSql 访问 hbase配置测试验证SparkSql 访问 hbase配置:&n...转载 2018-08-03 01:51:42 · 1954 阅读 · 0 评论 -
spark :安装与配置
参见 HDP2.4安装(五):集群及组件安装 ,安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群,基于hadoop yarn 的运行模式。目录:Spark集群安装参数配置测试验证Spark集群安装:在ambari -service 界...转载 2018-08-03 01:49:50 · 813 阅读 · 0 评论 -
spark:内存管理
Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和aggregations所需内存,后者包括cache和节点间数据传输所需内存;在Spark 1.5和之前版本里,两者是静态配置的,不支持借用,s...转载 2018-08-03 01:48:19 · 124 阅读 · 0 评论