笔者最近参加了2场大数据技术开放活动,在技术分享的时候,发现,2场分享活动,有人不约而同的推荐了Apache atlas 组件,所以,就像介绍一下这个组件。Apache atlas 是个什么样的工具?它有哪些功能和作用?
其实,在本人之前的文章中有介绍,它是一个用在hadoop上的数据治理和元数据框架工具。它是基于hadoop平台上,能无缝对接hadoop平台的组件。前端UI默认使用solr5,有丰富的rest API ,后端数据库可以是hive,hbase等。能导入不同格式的数据源,包括hive,hbase等(传统数据库,暂不清楚)。
1.Apache atlas 安装
安装步骤,官网上面有,链接:
为方便操作,简单翻译一下步骤:
环境:
JDK8
MAVEN3.X
GIT
PYTHON2.7以上
(1)building atlas(构建atlas)
git clone https://git-wip-us.apache.org/repos/asf/atlas.git atlas
cd atlas
export MAVEN_OPTS="-Xms2g -Xmx4g"
mvn clean -DskipTests install
注意:
服务器内存至少要4G。笔者升级了几次配置。这是笔者的截图:
文件很多,要下比较1-2个小时,中间可能也有fail。
(2)打包atlas
(机器上已经装有hbase和solr)
mvn clean -DskipTests package -Pdist
(机器上没有装hbase和solr,atlas自带hbase和solr)
mvn clean -DskipTests package -Pdist,embedded-hbase-solr
本文这里选了后一种。
(3)打包完,会在根目录下生成以下的包:
(4)安装atlas
tar -xzvf apache-atlas-${project.version}-bin.tar.gz
cd atlas-${project.version}
目前它会自动解压,这一步可以不要。
下载完成后,目录结构:
其中,atlas_home/distro/target 下面,
apache-atlas-1.0.0-SNAPSHOT-bin 是其解压后的目录:
注意:接下来是配置步骤。先看完黑体字,再接着看下文。
如果只是atlas默认配置启动,命令:
cd /apache_atlas/atlas/distro/target/apache-atlas-1.0.0-SNAPSHOT-bin/apache-atlas-1.0.0-SNAPSHOT
bin/atlas_start.py
测试:
报错:
Error 401 Full authentication is required to access this resource
HTTP ERROR 401
Problem accessing /api/atlas/admin/version. Reason:
Full authentication is required to access this resource
原因:
没有权限,正确命令:
username:默认admin
password:默认admin
curl -v -u admin:admin http://localhost:21000/api/atlas/admin/version
这样就成功了。
上面的启动,solr,hbase 是内嵌式的,solr端口是9838,跟独立安装的默认端口8983不一样。如果需要自定义配置,尤其是使用hbase做图库的存储后端(HBase as the Storage Backend for the Graph Repository),solr做图表库的索引后端(SOLR as the Indexing Backend for the Graph Repository),请看下文。
(5)配置项。
conf/atlas-env.sh
# The java implementation to use. If JAVA_HOME is not found we expect