spark
FMSCOTT
无论走哪条路都牢记最初的梦想,并坚持于最初梦想的方向…
展开
-
hadoop2.4+spark1.3.0集群安装
1linux基础环境配置 1.1:安装centos 6.5 略,配置ip vi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0 TYPE=Ethernet ONBOOT=yes BOOTPROTO=static IPADDR=192.168.128.41 NETMASK=255.255.255.0 GATEWAY=192.16原创 2016-07-12 11:02:11 · 781 阅读 · 0 评论 -
spark相关面试题
spark面试问题收集spark面试问题1、spark中的RDD是什么,有哪些特性RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。Dataset:就是一个集合,用于存放数据的Distributed:分布式,可以并行在集群计算Resilient:表示弹性的弹性...转载 2019-07-19 16:07:26 · 169 阅读 · 0 评论 -
sparkStream高可用
HA高可用性:High Availability,如果有些数据丢失,或者节点挂掉;那么不能让你的实时计算程序挂了;必须做一些数据上的冗余副本,保证你的实时计算程序可以7 * 24小时的运转。通过一整套方案(3个步骤),开启和实现实时计算程序的HA高可用性,保证一些关键数据都有其冗余副本,不至于因为节点挂掉或者其他原因导致数据丢失。1、updateStateByKey、windo...原创 2019-07-24 15:00:58 · 220 阅读 · 0 评论 -
sparkStream性能调优
1、并行化数据接收:处理多个topic的数据时比较有效int numStreams = 5;List<JavaPairDStream<String, String>> kafkaStreams = new ArrayList<JavaPairDStream<String, String>>(numStreams);for (int ...原创 2019-07-24 15:02:04 · 590 阅读 · 0 评论 -
spark-troubleshooting
1:shuffle reduce端缓冲大小以避免OOMspark.reducer.maxSizeInFlight,48 默认spark.reducer.maxSizeInFlight,24当reduce发生OOM时,可以适当调小 reduce缓冲区的大小,这样每次拉取的文件变少,处理的数据变少,便不会内存溢出。但是导致处理数据的性能变弱。这是一种一执牺牲性能的方式,换取程序能...原创 2019-07-24 15:02:57 · 184 阅读 · 0 评论 -
spark性能优化
1.分配资源,并行度,rdd架构与缓存2.shuffle调优3.spark算子调优4.jvm调优,广播大变量。。。1:分配更多的资源 分配那些资源?excutor ,cpu per ececuter,memory per executer在哪里分配资源?在提交spark提交作业的脚步中,提交参数调节到多大算是最大呢?为...原创 2019-07-24 15:03:47 · 325 阅读 · 0 评论 -
spark数据倾斜解决方案之原理
定位原因与出现问题的位置:根据log去定位出现数据倾斜的原因,基本只可能是因为发生了shuffle操作,在shuffle的过程中,出现了数据倾斜的问题。因为某个,或者某些key对应的数据,远远的高于其他的key。1、你在自己的程序里面找找,哪些地方用了会产生shuffle的算子,groupByKey、countByKey、reduceByKey、join2、看loglog一...原创 2019-07-24 15:04:53 · 169 阅读 · 0 评论