Atlas2.1.0兼容CDH6.2.0部署

Atlas2.1.0兼容CDH6.2.0部署

1. CDH组件版本

cdh

2. 配置

#下载
wget https://dlcdn.apache.org/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz --no-check-certificate


#pom.xml
<hadoop.version>3.0.0-cdh6.2.0</hadoop.version>
<hbase.version>2.1.0-cdh6.2.0</hbase.version>
<solr.version>7.4.0-cdh6.2.0</solr.version>
<hive.version>2.1.1-cdh6.2.0</hive.version>
<kafka.version>2.1.0-cdh6.2.0</kafka.version>
<zookeeper.version>3.4.5-cdh6.2.0</zookeeper.version>
<sqoop.version>1.4.7-cdh6.2.0</sqoop.version>


#镜像
<repository>
    <id>cloudera</id>
    <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
</repository>

#注意:pom.xml修改的内容要与cdh集群中的版本一致

在这里插入图片描述

在这里插入图片描述

3. 兼容hive2.1.1-cdh6.2.0 修改源码

注意: 不做兼容编译打包会失败

在这里插入图片描述

#子工程apache-atlas-sources-2.1.0\addons\hive-bridge
#org/apache/atlas/hive/bridge/HiveMetaStoreBridge.java

String catalogName = hiveDB.getCatalogName() != null ? hiveDB.getCatalogName().toLowerCase() : null;
改为
String catalogName = null;

在这里插入图片描述

#org/apache/atlas/hive/hook/AtlasHiveHookContext.java
this.metastoreHandler = (listenerEvent != null) ? metastoreEvent.getIHMSHandler() : null;
改为
this.metastoreHandler = null;

4.编译打包

export MAVEN_OPTS="-Xms2g -Xmx2g" 
sudo mvn clean -DskipTests install  [ -X(查看debug信息)] 
sudo mvn clean -DskipTests package -Pdist

在这里插入图片描述

在这里插入图片描述

5.Atlas安装

# 将安装包移动至/data/app下 并改名为atlas2.1
cp -r apache-atlas-2.1.0/ /data/app/
 
mv apache-atlas-2.1.0/ atlas2.1

# 配置文件
vim /data/app/atlas2.1/conf/atlas-application.properties

# 配置项
#########  Server Properties  ######### 
atlas.rest.address=http://192.168.1.209:21000

## Server port configuration
atlas.server.http.port=21000

6.集成CDH组件

6.1集成kafka

# 配置文件
vim /data/app/atlas2.1/conf/atlas-application.properties

# 配置项
atlas.notification.embedded=false(如果要使用内嵌的kafka,则改为true)
atlas.kafka.zookeeper.connect=sd-cluster-207:2181,sd-cluster-208:2181,sd-cluster-209:2181
atlas.kafka.bootstrap.servers=sd-cluster-207:9092,sd-cluster-208:9092,sd-cluster-209:9092
atlas.kafka.zookeeper.session.timeout.ms=4000
atlas.kafka.zookeeper.connection.timeout.ms=2000
atlas.kafka.enable.auto.commit=true
atlas.kafka.offsets.topic.replication.factor=3


kafka-topics --zookeeper sd-cluster-209:2181 --create --replication-factor 3 --partitions 3 --topic _HOATLASOK 

kafka-topics --zookeeper sd-cluster-209:2181 --create --replication-factor 3 --partitions 3 --topic ATLAS_HOOK 

kafka-topics --zookeeper sd-cluster-209:2181 --create --replication-factor 3 --partitions 3 --topic ATLAS_ENTITIES 

kafka-topics.sh --list --zookeeper sd-cluster-209:2181

在这里插入图片描述

6.2集成Hbase

# 配置文件
vim /data/app/atlas2.1/conf/atlas-application.properties

#配置项
atlas.graph.storage.hostname=sd-cluster-207:2181,sd-cluster-208:2181,sd-cluster-209:2181


# 将hbase的配置文件软链接到Atlas的conf/hbase目录下
ln -s /etc/hbase/conf/ /data/app/atlas2.1/conf/hbase/


# 配置文件
vim  /data/app/atlas2.1/conf/atlas-env.sh
export HBASE_CONF_DIR=//data/app/atlas2.1/conf/hbase/conf

在这里插入图片描述

6.3集成Solr

# 配置文件
vim /data/app/atlas2.1/conf/atlas-application.properties

#配置项
atlas.graph.index.search.solr.zookeeper-url=sd-cluster-207:2181/solr,sd-cluster-208:2181/solr,sd-cluster-209:2181/solr


# 将Atlas的conf目录下Solr文件夹同步到Solr的目录下并更名
cp -r /data/app/atlas2.1/conf/solr/ /opt/cloudera/parcels/CDH/lib/solr/atlas_solr


#同步到其他节点 sd-cluster-207、sd-cluster-208 /opt/cloudera/parcels/CDH/lib/solr/atlas_solr


#修改用户组
chown -R solr:solr /opt/cloudera/parcels/CDH/lib/solr/

#切换用户
su solr


# Solr创建collection
/opt/cloudera/parcels/CDH/lib/solr/bin/solr create -c vertex_index -d /opt/cloudera/parcels/CDH/lib/solr/atlas_solr -force -shards 3 -replicationFactor 3

/opt/cloudera/parcels/CDH/lib/solr/bin/solr create -c edge_index -d /opt/cloudera/parcels/CDH/lib/solr/atlas_solr -force -shards 3 -replicationFactor 3

/opt/cloudera/parcels/CDH/lib/solr/bin/solr create -c fulltext_index -d /opt/cloudera/parcels/CDH/lib/solr/atlas_solr -force -shards 3 -replicationFactor 3

在这里插入图片描述

6.4Atlas启动

/data/app/atlas2.1/bin/atlas_start.py

http://192.168.1.209:21000/

默认用户名和密码为:admin

在这里插入图片描述

在这里插入图片描述

6.5集成Hive

修改【hive-site.xml的Hive服务高级代码段(安全阀)】
名称:hive.exec.post.hooks
值:org.apache.atlas.hive.hook.HiveHook

修改【hive-site.xml的Hive客户端高级代码段(安全阀)】
名称:hive.exec.post.hooks
值:org.apache.atlas.hive.hook.HiveHook,org.apache.hadoop.hive.ql.hooks.LineageLogger

在这里插入图片描述

修改 【hive-env.sh 的 Gateway 客户端环境高级配置代码段(安全阀)】
HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera

在这里插入图片描述

修改【Hive 辅助 JAR 目录】
值:/data/app/atlas2.1/hook/hive

修改 【hive-site.xml 的 HiveServer2 高级配置代码段(安全阀)】

名称:hive.exec.post.hooks
值:org.apache.atlas.hive.hook.HiveHook,org.apache.hadoop.hive.ql.hooks.LineageLogger

名称:hive.reloadable.aux.jars.path
值:/data/app/atlas2.1/hook/hive

修改 【HiveServer2 环境高级配置代码段(安全阀)】
HIVE_AUX_JARS_PATH=/data/app/atlas2.1/hook/hive

在这里插入图片描述

将配置文件atlas-application.properties添加到atlas2.1/hook/hive的atlas-plugin-classloader-2.1.0.jar

# 切换到Atlas的conf目录下
cd /data/atlas-2.1.0/conf
# 添加
zip -u /data/app/atlas2.1/hook/hive/atlas-plugin-classloader-2.1.0.jar atlas-application.properties
 
# 将配置文件添加到hive的配置目录下
sudo cp atlas-application.properties /etc/hive/conf

#scp到其他主机hive配置下
scp atlas-application.properties sd-cluster-207、sd-cluster-207:/etc/hive/conf


#集成sqoop
zip -u /data/app/atlas2.1/hook/sqoop/atlas-plugin-classloader-2.1.0.jar atlas-application.properties
scp hook/sqoop/*.jar   /opt/cloudera/parcels/CDH/lib/sqoop/lib


cd /opt/cloudera/parcels/CDH/lib/hive/lib && rm -rf jackson-core-2.9.9.jar && rm -rf jackson-annotations-2.9.9.jar && rm -rf jackson-databind-2.10.0.jar

将hive元数据导入Atlas

cd /data/app/atlas2.1/bin 
./import-hive.sh

在这里插入图片描述

登录Atlas查看hive相关元数据
在这里插入图片描述

在这里插入图片描述

7.验证分析

建表

create table test.atlas1 as select '1' as id,'wangman' as name;
  
create table test.atlas2 as select '1' as id,'jilin' as address;

create table test.atlas3 as 
select a.id as id_x,a.name as name_x,b.address as address_x from test.atlas1 a left join test.atlas2 b on a.id=b.id

在这里插入图片描述

表血缘
在这里插入图片描述

字段血缘
在这里插入图片描述

8.Hive comment乱码

在这里插入图片描述

use metastore;
show create table COLUMNS_V2; --查看字符集

#修改字符集为utf-8
#修改表字段注解和表注解
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
#修改分区字段注解
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;
alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
#修改索引注解
alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

验证

CREATE TABLE `atlas4`(
  `id` string comment '编号', 
  `name` string comment '名字')
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 为了在CDH 6.3.2中集成Apache Atlas 2.1.0,需要按照以下步骤进行操作: 1. 准备工作: - 确保CDH集群已经安装和配置成功,并且可正常运行。 - 下载并解压Apache Atlas 2.1.0安装包,并将其上传到CDH集群的某一台主机上。 2. 配置Atlas: - 进入Atlas安装包的目录,编辑conf/atlas-env.sh文件,设置ATLAS_HOME和ATLAS_LOG_DIR变量。 - 编辑conf/atlas-application.properties文件,设置配置选项,如atlas.graph.index.search.backend=lucene和atlas.audit.hbase.tablename=ATLAS_HOOK。 - 如果需要使用LDAP进行用户身份验证,编辑conf/atlas-application.properties,设置atlas.authentication.method=LDAP,并配置相关的LDAP连接参数。 3. 配置Hadoop集成: - 进入CDH的HDFS配置目录,例如/etc/hadoop/conf.cloudera.hdfs/。 - 编辑hdfs-site.xml文件,在其中添加以下配置: ``` <property> <name>dfs.namenode.acls.enabled</name> <value>true</value> </property> <property> <name>dfs.namenode.acls.enabled</name> <value>true</value> </property> ``` - 重新启动HDFS服务,使配置生效。 4. 初始化Atlas: - 切换到Atlas安装包目录,运行bin/atlas_start.py脚本以启动Atlas服务。 - 运行bin/atlas_client.py脚本,执行create-hbase-schema命令初始化HBase表结构。 - 运行bin/atlas_client.py脚本,执行import-hive.sh命令初始化Hive元数据。 - 最后,运行bin/atlas_client.py脚本,执行import-hdfs.sh命令初始化HDFS元数据。 完成以上步骤后,CDH 6.3.2与Apache Atlas 2.1.0就成功集成起来了。Atlas将能够提供数据治理和元数据管理的功能,同时与CDH集群的各个组件相互交互,提供更加全面和可靠的数据管理支持。 ### 回答2: CDH 6.3.2是一种大数据平台,集成了各种开源的大数据软件,包括Hadoop、Hive、Spark等。而Atlas 2.1.0则是一种开源的元数据管理和数据治理平台。 将CDH 6.3.2与Atlas 2.1.0集成,可以为大数据平台提供更全面和高效的元数据管理功能。具体的集成步骤如下: 1. 下载和安装CDH 6.3.2:首先,需要从Cloudera官网下载CDH 6.3.2的安装包,并按照官方说明进行安装配置。 2. 下载和安装Atlas 2.1.0:接下来,需要从Apache Atlas官网下载Atlas 2.1.0的安装包,并按照官方说明进行安装配置。 3. 配置AtlasCDH集成:在安装完成之后,需要修改CDH的配置文件,以便与Atlas集成。通过编辑Cloudera Manager的配置文件,将Atlas的相关配置信息添加进去,配置包括Atlas的运行路径、端口号等。 4. 启动Atlas服务:Atlas服务是一个后台服务,负责元数据管理功能。设置完成后,需要启动Atlas服务,以便使之在CDH平台上生效。通过Cloudera Manager界面,找到Atlas服务,并启动它。 5. 验证集成效果:在Atlas服务启动后,可以登录Atlas的Web界面,验证集成效果。在Atlas中,可以添加和管理各种元数据,比如数据表、数据列等。通过Atlas,可以方便地搜索和浏览CDH中的元数据信息,实现数据治理的目标。 总的来说,将CDH 6.3.2与Atlas 2.1.0集成可以提升大数据平台的元数据管理和数据治理能力。通过将两者集成,可以更方便地管理和查询各种元数据信息,为数据分析和挖掘提供更好的支持。 ### 回答3: CDH 6.3.2 是Cloudera提供的开源大数据平台,而Atlas 2.1.0 是Apache Atlas 提供的元数据管理和数据治理工具。要将Atlas 2.1.0 集成到CDH 6.3.2 中,需要按照以下步骤进行操作: 1. 安装CDH 6.3.2:首先,需要按照Cloudera官方文档提供的指南,从Cloudera官方网站下载并安装CDH 6.3.2。这个过程需要确保与系统的要求相符,包括硬件要求和操作系统版本等。 2. 安装Apache Atlas 2.1.0:接下来,需要从Apache Atlas官方网站下载并安装Atlas 2.1.0 的二进制包。同样,这个过程也需要根据官方文档中的指南进行操作,确保安装过程正确无误。 3. 配置CDH 6.3.2 和Atlas 2.1.0:一旦安装完毕,需要进行CDHAtlas的配置。首先,需要编辑CDH 6.3.2 的配置文件,将Atlas相关的配置选项添加进去,并指定Atlas的元数据存储位置。然后,需要启动CDH的服务,包括Hadoop、Hive、HBase等。接着,在Atlas的配置文件中,需要指定Hadoop集群的地址和端口等信息。 4. 启动Atlas 2.1.0:配置完成后,可以启动Atlas 2.1.0 服务。这样,Atlas将能够连接到CDH 6.3.2,并开始收集、管理和治理集群中的元数据。 需要注意的是,由于CDHAtlas都是复杂而庞大的系统,集成过程中可能会遇到各种问题和挑战。因此,在进行集成之前,确保事先熟悉了官方文档,并参考经验丰富的用户或社区中的指南和建议。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叫我满叔叔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值