搭建 hadoop drelephant

1. 需要的工具

java 安装 配置环境 

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

play 框架 由于drelephant 是在play上运行的所以需要

https://www.playframework.com/download

maven 

http://maven.apache.org/

2. 安装

先安装java 并且配置环境 变量运行 java -version 如能打印出java版本 则说明配置成功。

安装maven 并配置环境变量 mvn 查看是否成功

安装play 配置环境变量

3. 安装elephant

使用git clone https://github.com/linkedin/dr-elephant.git 下载源代码

解压缩 进入目录 修改 elephant.conf 配置自己的hadoop版本 spark版本 

运行 compair.sh + 配置文件路径 elephant.conf 运行

结束后 会在dist目录下 生成zip包 把包放到 你的分布式集群上

解压缩 安装mysql(版本越高越好5+) 在mysql中创建数据库 drelephant 

配置你解压缩后app-conf 下的elephant.xml 中的

# Database configuration
db_url=10.26.4.3:3306 你的ip:端口
db_name=你的数据库名
db_user=你的用户名
db_password="你的数据库密码"

 

修改bin/start.sh 在开头加入你的java_home hadoop_home 你的配置文件目录 如下:

export JAVA_HOME=/home/bigdata/bin/java

export HADOOP_HOME=/home/bigdata/bin/hadoop
export ELEPHANT_CONF_DIR=/home/bigdata/local/dr-elephant-2.1.7/app-conf/
export PATH=$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
完成之后就可以运行 start.sh

4. 可能出现的问题

编译时 多编译几次

mysql 版本不高 导致链接失败 

遇到问题 可以查看 dr.log 与 logs/application.log

 在使用过程中出现的问题:

spark 任务无法获取原因:

1. 配置问题,没有spark-default.cml所在的路径,加入到./run.sh中解决

2. 官方兼容spark版本是1.x ,如果你的事spark2.x 则会出现,日志压缩的数据拿不到,默认是.lz4 解决办法 或者在设置中设置不压缩 或者用我的改动版本 我将spark2.x加入到了最新的版本中 git地址:https://github.com/Hanqingkuo/dr.elephant-spark2.x

tez任务无法获取原因:

添加timeline配置

3. 我所运行的每天获取任务5W+ 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值