spark
Java_Soldier
384930333@qq.com
展开
-
基于java api的spark常用算子
基于java api的spark常用算子原创 2018-03-26 14:41:42 · 452 阅读 · 0 评论 -
sparkstreaming控制消费速率
反压机制:spark1.5以后,通过动态收集系统的一些数据来自动的适配集群数据处理能力在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时...原创 2018-10-25 18:19:01 · 4381 阅读 · 0 评论 -
【菜鸟系列】spark常用算子总结(java)--union,intersection,coalesce,repartition,cartesian,distinct
/** * union * 合并 */JavaRDD rdd1 = jsc.parallelize(Arrays.asList(1,2,3,4,5,6,7),2);JavaRDD rdd2 = jsc.parallelize(Arrays.asList(1,21,31,41,51,61,7),2);JavaRDD rdd3 = rdd1.union(rdd2);//System.o...原创 2018-06-08 16:03:10 · 2022 阅读 · 0 评论 -
【菜鸟系列】spark常用算子总结(scala、java)--map,flatMap,flatMapToPair
map,flatMap,flatMapToPair是最常用的算子,map算子的输入和输出是一对一的,也就是子RDD的分区与父RDD的分区时一对一的关系;flatMap是压平,输入和输出是一对多的关系;需要注意的是:scala版本的map可以将RDD转成PairRDD,但是在java版本中,这个功能是通过mapToPair函数实现的,需要实现PairFunction函数;scala版本没有flatM...原创 2018-06-05 16:31:52 · 6191 阅读 · 2 评论 -
【菜鸟系列】spark常用算子总结(scala、java)--groupByKey,reduceByKey
groupByKey和reduceByKey是常用的聚合函数,作用的数据集为PairRDDscala reduceByKey函数原型 def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)] = self.withScope { combineByKeyWithClassTa...原创 2018-06-05 15:41:41 · 4543 阅读 · 0 评论 -
spark优化思路
最近发现spark作业运行速度很慢,发现executor实例数设置的太低,所以对job进行了优化 优化前:800G压缩文件 30分钟 优化后:800G压缩文件 2分钟======================== 参数优化: task的执行速度是跟每个Executor进程的CPU core数量有直接关系的。一个CPU core同一时间只能执行一个线程。而每个Executor进程上分...原创 2018-05-24 09:07:42 · 1489 阅读 · 0 评论 -
sparkStreaming连接kafka(Direct)
http://blog.csdn.net/erfucun/article/details/52275369//创建JavaStreamingContext JavaStreamingContext jsc = createJavaStreamingContext(null, appName, batchDurationWithSeconds);//kafkaParams 封装了kafka...原创 2018-06-04 09:26:00 · 2189 阅读 · 0 评论 -
spark-streaming连接kafka(receiver)
package com.asiainfo.spark.streamingimport org.apache.spark.{HashPartitioner, SparkConf} import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.kafka.KafkaUtils import org...原创 2018-06-04 09:25:16 · 1750 阅读 · 0 评论 -
sparkEnv的初始化
SparkEnv的方法createDriverEnv最终调用create创建SparkEnv。SparkEnv的构造步骤如下: 1) 创建安全管理器SecurityManager; 2) 创建基于Akka的分布式消息系统ActorSystem; 3) 创建Map任务输出跟踪器mapOutputTracker; 4) 实例化Shuffl...原创 2018-06-04 09:22:54 · 1570 阅读 · 0 评论 -
spark杂记-初识spark
1.rdd 弹性分布式数据集 分区;一个函数处理一个分区;sparkContext;transformation(转换):延迟加载,算子中并不加载数据,如flatMap,map; action(动作):真正开始计算数据 ,之前会记录转换rdd的路径,DAG,在执行action的时候会开始真正的计算,加载数据,这就是spark跟mr的区别,mr是分步骤处理数据,处理的中间结果是保存在磁盘中的...原创 2018-05-21 17:44:00 · 1619 阅读 · 0 评论 -
spark运行模式全解析
1.local 本地模式:不需要hadoop(除非用到),不需要启动Master,Worker spark-shell(spark-shell –master local[n]) spark-submit (spark-submit –master local[n])2.local cluster 模式:不需要hadoop(除非用到),不需要启动Master,Worker spark-s...原创 2018-05-21 17:29:36 · 1775 阅读 · 0 评论 -
sparkEnv初始化流程
SparkEnv的方法createDriverEnv最终调用create创建SparkEnv。SparkEnv的构造步骤如下: 1) 创建安全管理器SecurityManager; 2) 创建基于Akka的分布式消息系统ActorSystem; 3) 创建Map任务输出跟踪器mapOutputTracker; 4) 实例化Shuffl...原创 2018-05-21 17:28:46 · 1729 阅读 · 0 评论 -
spark深度解析:调度算法
基于spark1.3.1的源码解读不得不佩服spark源码的精炼,standalone模式中,不到100行就搞定了资源调度,spark提供两种资源调度方式,尽量打散:即我们的executor会尽量的分配更多的worker上;尽量集中:即我们的executor会尽量的分配更少的worker上;这其中是通过spreadOutApps变量来控制的,true为尽量分散。 private def sch...原创 2018-11-28 14:55:29 · 700 阅读 · 0 评论