导语:atlas是开源的元数据管理系统,其包含了元数据治理的基本功能;包括对术语和标签的定义、数据血缘的记录、元数据的采集等功能。对于了解元数据的治理系统的构建过程具有参考意义。本文从实际搭建角度列出一些注意事项,以帮助调研元数据系统的开发者少走弯路。
一、修改依赖的kafka版本
1、出现的错误
由于atlas官网用的kafka官网版本1.0.0,而CDH上用的是0.9.0-kafka-2.0.2版本。api的版本不一致,导致报下面的错误。
2、解决方案
要么改atlas源码中kafka的版本,要么hadoop机器集群改用atlas源码当中兼容的kafka版本。
这里我们选择修改atlas源码中依赖的kafka版本。
org.apache.kafka
kafka_ 2.11
0.9.0-kafka-2.0.2
3、修改代码中kafka的版本后,代码不兼容 。所以注释掉了一部分启动内部kafka的代码
4、把notification模块的启动本地zk和kafka的代码注释掉,这一块代码当中有用到kafka高版本的api和cdh上的kafka不兼容。
5、kafka的钩子模块当中有不少高版本的api,我们目前并不采集kafka的元数据和血缘,所以我从整个项目当中拿掉了这个模块。
二、修改依赖的hbase版本
由于atlas内部的图数据库JanusGrap