Apache Atlas系列 -- 部署

1 Overview

Apache Atlas 是什么?

Atlas is a scalable and extensible set of core foundational governance services – enabling enterprises to effectively and efficiently meet their compliance requirements within Hadoop and allows integration with the whole enterprise data ecosystem.

architecture.png-168.5kB

摘抄一段官网上的介绍,Atlas 是一个可伸缩且功能丰富的数据管理系统,深度集成了 Hadoop 大数据组件。简单理解就是一个跟 Hadoop 关系紧密的,可以用来做元数据管理的一个系统。

u=4174594918,3209909724&fm=214&gp=0.jpg-49.8kB

为什么需要管理元数据?

这里只简单介绍一下,元数据管理的好处。比如 Hive 表新增的字段,需要了解其生命周期,也需要了解他的“来龙去脉”,也就是需要知道 Hive 表里,这个数据是如何生成的,由谁生存,什么时候生成,产生了什么变化,这些信息在等数据部门相对成熟了,而且各业务部门需求比较多,比较繁琐的时候,有这么一套系统就会有很大的好处。

元数据的定义非常广,比如一个 Hive 表什么时候生成,什么时候可以放弃,如果有元数据管理的体系,那么这些做起来就非常方便了,因此很多公司的大数据部门会安排人力去开发这样的一套系统。而 Atlas 则提供了很好的实现的参考思路和架构。

2 Atlas 部署

1.1.0 部署不成功。一直报集成的 HBase 的问题,不深究了,直接用 1.0.0 重新编译部署。然后就成功了…

具体的部署步骤就按照官方文档就好了。

需要注意的是,因为是单机部署,仅作测试使用,所以请按照 Packaging Apache Atlas with embedded Apache HBase & Apache Solr 的方式,集成 HBase 和 Solr。所以最关键就是以下这个命令。

mvn clean -DskipTests package -Pdist,embedded-hbase-solr

请注意,启动命令在以下路径输入:

/Path/to/apache-atlas-sources-1.0.0/distro/target/apache-atlas-1.0.0-bin/apache-atlas-1.0.0

因为我按照官网的提示,实际上是并没有 atlas-${project.version} (version 是指你安装的版本)这个文件的。

tar -xzvf apache-atlas-${project.version}-bin.tar.gz
cd atlas-${project.version}

关于启动的时候,如果想知道发生了什么事情,那么可以参考以下路径,找到日志文件。因为是集成的 HBase 和 Solr,对应路径也有 log 文件,可以帮助排查服务为什么起不来。

/Path/to/apache-atlas-sources-1.0.0/distro/target/apache-atlas-1.0.0/logs

正常启动的日志应该是这样的:

########################################################################################
                               Atlas Server (STARTUP)

	project.name:	apache-atlas
	project.description:	Metadata Management and Data Governance Platform over Hadoop
	build.user:	runzhliu
	build.epoch:	1549713649455
	project.version:	1.0.0
	build.version:	1.0.0-rrelease
	vc.revision:	release
	vc.source.url:	scm:git:git://git.apache.org/atlas.git/atlas-webapp
######################################################################################## (Atlas:215)
2019-02-09 20:37:55,332 INFO  - [main:] ~ >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> (Atlas:216)
2019-02-09 20:37:55,332 INFO  - [main:] ~ Server starting with TLS ? false on port 21000 (Atlas:217)
2019-02-09 20:37:55,332 INFO  - [main:] ~ <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< (Atlas:218)
2019-02-09 20:37:56,258 INFO  - [main:] ~ No authentication method configured.  Defaulting to simple authentication (LoginProcessor:102)
2019-02-09 20:37:56,503 INFO  - [main:] ~ Logged in user runzhliu (auth:SIMPLE) (LoginProcessor:77)
2019-02-09 20:37:57,562 INFO  - [main:] ~ Not running setup per configuration atlas.server.run.setup.on.start. (SetupSteps$SetupRequired:189)

需要注意的是,如果在 Mac 上进行单机部署,内存和资源有可能会不足的,这样会影响各个组件的性能,产生各种各样的问题导致服务无法成功启动的!

3 导入 Hive 元数据

单机部署 Hive 其实十分简单,如果是 Mac 用户,直接 brew install hive 就可以了。大家都知道 Hive 需要 Hadoop 环境,所以使用 brew 安装 hive 的时候,默认会先安装 Hadoop 对应的版本,当然了用 brew 有很多版本的问题,如果你需要指定你想安装的 Hive 版本,会比较麻烦一点,但是直接从 Hive 官网下载你需要的版本就解压,并且指定单机的 Hadoop 环境也是相当容易的。

apache-atlas-2.1.0-hive-hook.tar.gz是Apache Atlas项目中的一个软件包。Apache Atlas是一个开源的数据治理和元数据框架,用于收集、集成、索引和搜索数据资产。它提供了一个统一的视图来管理企业中的所有数据资产,包括表、列、模式、实体和关系等。而apache-atlas-2.1.0-hive-hook.tar.gz是Atlas项目为了与Hive集成而提供的一个插件。 Hive是一个构建在Hadoop之上的数据仓库基础设施工具,用于处理大规模的结构化数据。它提供了类似于SQL的查询和分析功能,可以将数据批量导入、导出和查询。通过与Apache Atlas的集成,可以实现对Hive中数据资产的元数据管理和治理。 在实际的应用中,apache-atlas-2.1.0-hive-hook.tar.gz可以被部署到Hive的服务器上,并与Hive的插件机制进行集成。通过配置Hive的元数据存储URL、用户名和密码等信息,Atlas可以自动从Hive中提取元数据,并将其索引到Atlas的元数据仓库中。这样,用户可以在Atlas的界面中浏览和搜索Hive中的表、列和关系,并进行数据资产的管理和治理。 此外,apache-atlas-2.1.0-hive-hook.tar.gz还提供了一些其他功能,如基于分类标签的权限控制、数据血缘追踪、数据脱敏等。通过这些功能,用户可以更好地理解和管理Hive中的数据资产,提高数据治理的效率和质量。 总之,apache-atlas-2.1.0-hive-hook.tar.gz是Apache Atlas项目中用于与Hive集成的插件,通过它可以实现对Hive中数据资产的元数据管理和数据治理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值