大数据
星辰学院
xingchenxueyuan.com
展开
-
使用Hive API分析HQL的执行计划、Job数量和表的血缘关系
http://lxw1234.com/archives/2015/09/476.htm转载 2018-05-10 16:45:21 · 2784 阅读 · 0 评论 -
spark精华面试题
1、driver的功能是什么?1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点;2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。2、spark的有几种部署模...转载 2018-05-16 19:41:31 · 1782 阅读 · 0 评论 -
spark面试题一
1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?偏向于运维,暂不作讨论。2.Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?3.Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?4.如何配置spark master的HA?5.Apache Spark有哪些常见的稳定版本,...转载 2018-05-16 19:42:15 · 502 阅读 · 0 评论 -
ambari快速搭建hdp教程
本文使用ambari2.6.0和HDP2.6.3-centos7进行搭建,虚拟机软件使用vagrant作为载体。 硬件环境:mac 16GB内存, 256GB硬盘 说明:因为是单机搭建,为起到简单的实验目的,我们选择了vagrant作为虚拟机软件,快速搭建环境。另外,由于在线安装速度非常慢,我们需要离线下载必要安装包。以下是主要过程: 1、下载安装包 2、搭建http服务 3、...原创 2018-08-22 10:54:17 · 687 阅读 · 0 评论