Spark
大数据相关
欧阳子卿
每天叫醒你的不仅是闹钟,更是梦想!
展开
-
大数据面试题及答案
Hadoop 相关试题Hive 相关试题1、 hive表关联查询,如何解决数据倾斜的问题? 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特点、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL...转载 2019-03-05 10:35:02 · 4521 阅读 · 0 评论 -
Zookeeper集群设置shell脚本一键启动和关闭
版权声明:本文为博主原创文章,转正请注明出处。 https://blog.csdn.net/OYziqing </div>Zookeeper集群设置shell脚本一键启动准备:集群部署规划:配置了主机名、映射主机时间同步关闭防火墙配置环境变量安装了zookee原创 2019-01-10 19:39:38 · 2665 阅读 · 0 评论 -
Spark-Map和MapPartition的区别
在Spark中有map和mapPartitions算子,处理数据上,有一些区别主要区别:map是对rdd中的每一个元素进行操作;mapPartitions则是对rdd中的每个分区的迭代器进行操作MapPartitions的优点:如果是普通的map,比如一个partition中有1万条数据。ok,那么你的function要执行和计算1万次。使用MapPartitions操作之后,一...原创 2019-01-11 15:22:13 · 1704 阅读 · 0 评论 -
RDD的五大属性
- 1) A list of partitions一个分区列表,一个rdd有多个分区,后期spark任务计算是以分区为单位,一个分区就对应上一个task线程。 通过val rdd1=sc.textFile(文件) 如果这个文件大小的block个数小于等于2,它产生的rdd的分区数就是2 如果这个文件大小的block个数大于2,它产生的rdd的分区数跟文件的block相同 - ...原创 2019-01-14 20:51:16 · 4521 阅读 · 1 评论 -
cache/persist/checkpoint区别
cache和persist的区别基于Spark 1.4.1 的源码,可以看到/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */def cache(): this.type = persist()说明是cache()调用了persist(), 想要知道二者的不同还需要看一下persist函数:/*...原创 2019-01-11 15:33:51 · 701 阅读 · 0 评论 -
Spark资源调度和任务调度流程
spark运行架构Spark资源调度和任务调度的流程:1、启动集群后,Worker节点会向Master节点汇报资源情况,Master掌握了集群资源情况。2、当Spark提交一个Application后,根据RDD之间的依赖关系将Application形成一个DAG有向无环图。任务提交后,Spark会在Driver端创建两个对象:DAGScheduler和TaskScheduler。3、DA...原创 2019-01-14 21:22:12 · 1216 阅读 · 1 评论 -
kafka集群设置shell脚本一键启动和关闭
前言:最近在做Spark, 做到安装kafka, 安装完想配置一键启动和关闭, 编写启动的脚本执行没问题, 关闭的时候遇到了一些问题 ,上网查资料也只能解决一半, 有些博客写的关闭脚本拿过来用执行不能成功,让同事看好久测试好久也没找出来,最后自己重写一遍就可以了。下面跟大家分享一下经验吧~1.kafka 的config目录下 kafka-server-stop.sh 有些问题,需要先修改一下...原创 2019-01-15 21:32:43 · 6183 阅读 · 3 评论