apache atlas 案例_Apache Atlas系列 -- 部署

本文介绍了Apache Atlas的用途,它是一个用于Hadoop的数据管理系统,专注于元数据管理。文章详细阐述了为何需要元数据管理,并提供了Atlas 1.0.0的单机部署步骤,包括遇到的问题和解决方法,以及如何导入Hive元数据。
摘要由CSDN通过智能技术生成

1 Overview

Apache Atlas 是什么?Atlas is a scalable and extensible set of core foundational governance services – enabling enterprises to effectively and efficiently meet their compliance requirements within Hadoop and allows integration with the whole enterprise data ecosystem.

摘抄一段官网上的介绍,Atlas 是一个可伸缩且功能丰富的数据管理系统,深度集成了 Hadoop 大数据组件。简单理解就是一个跟 Hadoop 关系紧密的,可以用来做元数据管理的一个系统。

为什么需要管理元数据?

这里只简单介绍一下,元数据管理的好处。比如 Hive 表新增的字段,需要了解其生命周期,也需要了解他的“来龙去脉”,也就是需要知道 Hive 表里,这个数据是如何生成的,由谁生存,什么时候生成,产生了什么变化,这些信息在等数据部门相对成熟了,而且各业务部门需求比较多,比较繁琐的时候,有这么一套系统就会有很大的好处。

元数据的定义非常广,比如一个 Hive 表什么时候生成,什么时候可以放弃,如果有元数据管理的体系,那么这些做起来就非常方便了,因此很多公司的大数据部门会安排人力去开发这样的一套系统。而 Atlas 则提供了很好的实现的参考思路和架构。

2 Atlas 部署

1.1.0 部署不成功。一直报集成的 HBase 的问题,不深究了,直接用 1.0.0 重新编译部署。然后就成功了...

具体的部署步骤就按照官方文档就好了。

需要注意的是,因为是单机部署,仅作测试使用,所以请按照 Packaging Apache Atlas with embedded Apache HBase & Apache Solr 的方式,集成 HBase 和 Solr。所以最关键就是以下这个命令。

mvn clean -DskipTests package -Pdist,embedded-hbase-solr

请注意,启动命令在以下路径输入:

/Path/to/apache-atlas-sources-1.0.0/distro/target/apache-atlas-1.0.0-bin/apache-atlas-1.0.0

因为我按照官网的提示,实际上是并没有 atlas-${project.version} (version 是指你安装的版本)这个文件的。

tar -xzvf apache-atlas-${project.version}-bin.tar.gz

cd atlas-${project.version}

关于启动的时候,如果想知道发生了什么事情,那么可以参考以下路径,找到日志文件。因为是集成的 HBase 和 Solr,对应路径也有 log 文件,可以帮助排查服务为什么起不来。

/Path/to/apache-atlas-sources-1.0.0/distro/target/apache-atlas-1.0.0/logs

正常启动的日志应该是这样的:

########################################################################################

Atlas Server (STARTUP)

project.name: apache-atlas

project.description: Metadata Management and Data Governance Platform over Hadoop

build.user: runzhliu

build.epoch: 1549713649455

project.version: 1.0.0

build.version: 1.0.0-rrelease

vc.revision: release

vc.source.url: scm:git:git://git.apache.org/atlas.git/atlas-webapp

######################################################################################## (Atlas:215)

2019-02-09 20:37:55,332 INFO - [main:] ~ >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> (Atlas:216)

2019-02-09 20:37:55,332 INFO - [main:] ~ Server starting with TLS ? false on port 21000 (Atlas:217)

2019-02-09 20:37:55,332 INFO - [main:] ~ <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< (Atlas:218)

2019-02-09 20:37:56,258 INFO - [main:] ~ No authentication method configured. Defaulting to simple authentication (LoginProcessor:102)

2019-02-09 20:37:56,503 INFO - [main:] ~ Logged in user runzhliu (auth:SIMPLE) (LoginProcessor:77)

2019-02-09 20:37:57,562 INFO - [main:] ~ Not running setup per configuration atlas.server.run.setup.on.start. (SetupSteps$SetupRequired:189)

需要注意的是,如果在 Mac 上进行单机部署,内存和资源有可能会不足的,这样会影响各个组件的性能,产生各种各样的问题导致服务无法成功启动的!

3 导入 Hive 元数据

单机部署 Hive 其实十分简单,如果是 Mac 用户,直接 brew install hive 就可以了。大家都知道 Hive 需要 Hadoop 环境,所以使用 brew 安装 hive 的时候,默认会先安装 Hadoop 对应的版本,当然了用 brew 有很多版本的问题,如果你需要指定你想安装的 Hive 版本,会比较麻烦一点,但是直接从 Hive 官网下载你需要的版本就解压,并且指定单机的 Hadoop 环境也是相当容易的。

apache-atlas-2.1.0-hive-hook.tar.gz是Apache Atlas项目中的一个软件包。Apache Atlas是一个开源的数据治理和元数据框架,用于收集、集成、索引和搜索数据资产。它提供了一个统一的视图来管理企业中的所有数据资产,包括表、列、模式、实体和关系等。而apache-atlas-2.1.0-hive-hook.tar.gz是Atlas项目为了与Hive集成而提供的一个插件。 Hive是一个构建在Hadoop之上的数据仓库基础设施工具,用于处理大规模的结构化数据。它提供了类似于SQL的查询和分析功能,可以将数据批量导入、导出和查询。通过与Apache Atlas的集成,可以实现对Hive中数据资产的元数据管理和治理。 在实际的应用中,apache-atlas-2.1.0-hive-hook.tar.gz可以被部署到Hive的服务器上,并与Hive的插件机制进行集成。通过配置Hive的元数据存储URL、用户名和密码等信息,Atlas可以自动从Hive中提取元数据,并将其索引到Atlas的元数据仓库中。这样,用户可以在Atlas的界面中浏览和搜索Hive中的表、列和关系,并进行数据资产的管理和治理。 此外,apache-atlas-2.1.0-hive-hook.tar.gz还提供了一些其他功能,如基于分类标签的权限控制、数据血缘追踪、数据脱敏等。通过这些功能,用户可以更好地理解和管理Hive中的数据资产,提高数据治理的效率和质量。 总之,apache-atlas-2.1.0-hive-hook.tar.gz是Apache Atlas项目中用于与Hive集成的插件,通过它可以实现对Hive中数据资产的元数据管理和数据治理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值