1.下载 source
http://atlas.apache.org/Downloads.html
wget https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/1.2.0/apache-atlas-1.2.0-sources.tar.gz
2.编译
安装maven,修改maven setting.xml,添加aliyun 镜像
配置阿里云镜像,在下图位置(<mirrors>内配置如下代码),保存退出
<mirror>
<id>alimaven</id>
<mirrorOf>central</mirrorOf>
<name>aliyun maven</name>
<url>https://maven.aliyun.com/repository/central</url>
</mirror>
<mirror>
<id>aliyun-maven</id>
<mirrorOf>*</mirrorOf>
<name>aliyun maven</name>
<url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>
tar xvfz apache-atlas-${project.version}-sources.tar.gz
cd apache-atlas-sources-${project.version}/
export MAVEN_OPTS="-Xms2g -Xmx2g"
mvn clean -DskipTests install
1
cant download je-7.4.5.jar with maven [ com.sleepycat:je:jar:7.4.5 ]
添加pom.xml
<repository>
<id>oracleReleases</id>
<name>Oracle Released Java Packages</name>
<url>http://download.oracle.com/maven</url>
<layout>default</layout>
</repository>
添加setting.xml
<mirror>
<id>oracleReleases</id>
<mirrorOf>oracleReleases</mirrorOf>
<name>Oracle Released Java Packages</name>
<url>http://download.oracle.com/maven</url>
</mirror>
如果着急可以先用这个两个包
apache-atlas-1.2.0-hive-hook.tar
3、查看pom.xml 版本关系
source 里面的pom.xml ,还可以看版本对应关系,如果自行修改各版本有可能编译不通过
4.编译打包
mvn clean -DskipTests package -Pdist -Drat.skip=true
编译结束后可以看到源码目录下
/export/servers/apache-atlas-sources-1.2.0/distro/target
多了这些包,其中主要通过apache-atlas-1.2.0-server 进行配置启动
6.备份并修改配置文件
配置文件地址apache-atlas-sources-${project.version}/distro/target/conf/atlas-application.properties
备份并修改配置文件
cd apache-atlas-sources-${project.version}/distro/target/conf/
cp atlas-application.properties atlas-application.properties.bak
vi atlas-application.propertie
修改hbase es zookeeper kafka ,host port 配置, 不需要配集群,配置其中一个节点即可
7.进入bin目录 启动
./atlas_start.py
查看端口
netstat -anltp|grep
导入样例数据
./quick_start.py
输入初始化账号密码admin/admin
8.集成hive hook
把apache-atlas-sources-1.2.0/distro/target/apache-atlas-1.2.0-hive-hook 里面的东西放到安装包里
集成hive需要改两个配置
hive-site.xml
hive-env.sh
进入/export/servers/apache-hive-2.1.1-bin/conf 目录
添加一下配置到hive-site.xml
<property>
<name>hive.exec.post.hooks</name>
<value>org.apache.atlas.hive.hook.HiveHook</value>
</property>
添加一下配置到hive-env.sh
export HIVE_AUX_JARS_PATH=/export/servers/apache-atlas-sources-1.2.0/distro/target/apache-atlas-1.2.0-server/apache-atlas-1.2.0/hook/hive
如果你是配置多台机器的集群的话,需要在每台机器的hive上都存在有/export/servers/apache-atlas-sources-1.2.0/distro/target/apache-atlas-1.2.0-server/apache-atlas-1.2.0/hook/hive
这个目录所以我们采用scp 将文件分发到我们的机器上
进入apache-atlas-sources-1.2.0/distro/target/apache-atlas-1.2.0-server/apache-atlas-1.2.0/hook/
压缩
tar zxvf hive.tar.gz hive
set -x
for ip in 172.17.32.120 172.17.32.124 172.17.32.136 172.17.32.56 172.17.32.132 172.17.32.116 172.17.32.116
do
#scp hive.tar.gz bigdata@${ip}:~/
#ssh root@${ip} "rm -f /home/hive/*"
done
然后对应的hive配置修改也要到各自的机器上进行修改
集成过程中可能会因为缺少某个jackson的包导致失败
可以手动下载对应版本的jackson包放到
shell/export/servers/apache-atlas-sources-1.2.0/distro/target/apache-atlas-1.2.0-server/apache-atlas-1.2.0/hook/hive/atlas-hive-plugin-impl/
如果报找不到某个方法,说明版本问题,把jackson-databind 版本换成2.1.5 或2.6 ,
在进行分发
然后重启hive,确定能否正常重启
查看我们当前的数据库是否有数据,因为atlas它只能监听当前的操作,所以我们需要将历史的数据进行导入
然后在重启atlas
进行hive历史数据的导入
进入/export/servers/apache-atlas-sources-1.2.0/distro/target/apache-atlas-1.2.0-server/apache-atlas-1.2.0/hook-bin/
执行import-hive.sh脚本
或 导入单个库
import-hie.sh -d ods
需要输入默认的账户和密码 admin/admin
导入成功后我们查看ui界面可以看到对应的数据了 localhost:21000