Dr.elephant是一款对Hadoop和Spark任务进行性能监控和调优的工具,它由LinkedIn的团队于2016年开源,开源之前已经在公司运行使用2年。
目前使用Dr.elephant的公司国内的有Didi,国外的有airbnb、inmobi、hulu、FourSquare和PayPal等等。
项目地址:https://github.com/linkedin/dr-elephant
笔者所在公司每天有上万作业提交yarn执行,如果能提高作业性能,这对提升集群资源利用率,减少硬件投入成本有很大意义。
本文主要介绍:
- dr.elephant 环境搭建及问题处理
- dr.elephant功能介绍
- 简要介绍dr.elephant架构
###1、环境搭建及问题处理
整体环境:dr.elephant 2.0.6, hadoop 2.6.0, spark 2.0.1
1)从github上下载Dr. Elephant源码
git clone https://github.com/linkedin/dr-elephant.git
本地安装play框架,在环境变量PATH添加play命令路径。play对Java版本要求,版本必须是Java 8以上。(本人下的是play-2.2.6)
2)play framework的环境变量配置
export JAVA_HOME=/usr/jdk64/jdk1.8.0_60/
export PLAY_HOME=/opt/play-2.2.6
PATH=\$PATH:\$PL