数据治理工具DataHub的安装及踩坑过程

【摘要】

    项目上后面要搞数据治理,网上主流的开源组件是Atlas和DataHub,这几天刚好有时间,先把DataHub安装试用一下。安装过程中问题较多,花了两天时间才安装完。先把安装过程记录一下,后面把功能试用情况也写出来。

一、安装Docker

    因为服务器之前安装过Docker,所以安装过程省略,贴一张图看一下 ,API版本最低要求是1.41,建议安装最新的docker,我之前用的老版本docker,后面踩了坑。

二、安装Python3

 Python要求最低3.7,我的版本是3.8.0,安装教程太多了,这里就不写安装过程了

    

三、环境准备

yum -y install gcc
yum install libffi-devel -y
yum install zlib* -y
pip3 install toml

四、安装DataHub

1.安装docker compose V2

最开始默认安装的V1,结果运行提示需要V2,过程中各种失败,最后还是参照官网安装成功。

官网安装地址:Install the Compose plugin

先通过命令行安装了一次:

yum install docker-compose
yum install docker-compose-plugin

用docker-compose version命令查看版本报错了,所以又手动安装了一遍

mkdir -p /usr/local/lib/docker/cli-plugins
curl -SL https://github.com/docker/compose/releases/download/v2.16.0/docker-compose-linux-x86_64 -o /usr/local/lib/docker/cli-plugins/docker-compose
chmod +x /usr/local/lib/docker/cli-plugins/docker-compose

成功了

2.下载源码

主要是为了后面的步骤使用里面的一个配置文件

git clone https://github.com/datahub-project/datahub.git

3.安装DataHub

这段和官网的不一样,参照的一个大佬的文章,是因为官网的镜像下载比较慢,而且出错,指定了国内的镜像;

地址:https://blog.csdn.net/Forget_Ying/article/details/119870931

python3 -m pip install --upgrade pip wheel setuptools -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
python3 -m pip uninstall datahub acryl-datahub || true  # sanity check - ok if it fails
python3 -m pip install --upgrade acryl-datahub -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
datahub version

关键的步骤来了,在这个地方踩了很多坑

datahub docker quickstart --quickstart-compose-file ./docker/quickstart/docker-compose-without-neo4j.quickstart.yml

出错了,manifest for docker.io/acryldata/datahub-actions:head not found

这个是因为没有获取到最新的镜像tag,需要手动指定镜像的tag

编辑下载的源码中的配置文件./docker/quickstart/docker-compose-without-neo4j.quickstart.yml

修改下图红框后面的tag号,之前是:image: acryldata/datahub-actions:${ACTIONS_VERSION:-head}

继续执行 ,结果又报新的错误了

toomanyrequests: You have reached your pull rate limit. You may increase the limit by authenticating and upgrading: https://www.docker.com/increase-rate-limit

这个是因为docker匿名用户的拉取镜像的上限是100,可能我拉的次数太多了,解决办法是

注册docker用户,并使用docker login登录,这样上限就变成200了

docker login [your-domain-name]
username:[your-user-name]
pwd:[your-password]

继续执行,继续踩坑:"specify container image platform" requires API version 1.41, but the Docker daemon API version is 1.26

这个是因为我docker版本太低了,因为这个docker是去年安装的了,卸载后安装最新的,步骤就省略了,贴一个老版本docker的图片:

安装最新的docker后,再执行终于正常了:

但最终也没有出现成功界面:

 

到这里就有点崩溃了,也找不到是什么原因没有安装成功,提示中有个日志,打开也没有找到有用的信息

后来查看了一下docker正在运行的容器,发现很多容器都在正常运行:

我突然突发奇想,直接访问了一下UI界面,发现竟然可以访问!!!

 

真实天无绝人之路,登陆试了一下,可以正常使用。开启我的数据摄入吧~
 

UI地址:http://xxx.xxx.xxx.xxx:9002

用户名密码:datahub/datahub

4.参考的网站:

DataHub官网:https://datahubproject.io/docs/quickstart

Docker Compose:https://docs.docker.com/compose/install/linux/

DataHub安装配置详细过程:https://blog.csdn.net/Forget_Ying/article/details/119870931

元数据管理Datahub基于Docker进行部署:http://www.pczh.cn/news/26343.html

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 数据治理是指企业对数据进行全面规划、管理和监控的过程。在数据治理中,Java作为一种高效、可靠的编程语言,可以提供各种工具来帮助实现数据治理的目标。 首先,Java提供了强大的数据操作和处理库,如Apache Hadoop、Apache Spark等。这些工具可以帮助企业高效地处理大规模数据,进行数据清洗、集成和转换操作,确保数据的准确性和一致性。 其次,Java还提供了丰富的数据库操作工具,如Hibernate、JDBC等。这些工具可以帮助企业对数据进行持久化存储和访问,提供数据的可靠性和安全性。 此外,Java还提供了多线程编程的支持,可以实现并发处理和并行计算,加快数据处理的速度。 另外,Java还提供了各种数据可视化和报表生成的工具,如JavaFX、iText等。企业可以使用这些工具将数据以可视化的形式展示,帮助决策者更好地理解和分析数据,做出有意义的决策。 最后,Java还具有开放源代码、跨平台等特性,可以与其他数据治理工具和平台进行无缝集成,形成完整的数据治理解决方案。 综上所述,Java作为一种强大的编程语言,提供了丰富的工具和库,可以帮助企业实现数据治理的各个环节,包括数据处理、存储、可视化和集成等方面。 ### 回答2: 数据治理是指对组织内部的数据资源进行全面管理和控制的一种管理方法。它主要通过定义数据采集、存储、管理和使用的规范、标准和流程,确保数据的质量、完整性和可靠性,并实现数据的合规性和安全性。 在数据治理过程中,为了提高数据管理的效率和精度,Java语言成为了一种常用的工具。Java是一种面向对象的编程语言,具有跨平台性和强大的工具生态系统,可以提供复杂的数据处理和分析功能。 首先,Java提供了许多用于数据存储和管理的框架和库,如Hibernate、MyBatis等。这些工具可以帮助开发人员快速建立数据库连接、执行数据操作和管理数据结构,提高数据管理的效率和准确性。 其次,Java语言具有丰富的数据处理和分析的功能库,如Apache Spark、Apache Hadoop等。这些工具可以帮助用户进行大数据的处理和分析,支持对海量数据进行清洗、过滤、聚合等操作,从而提取有价值的数据,并为数据治理决策提供支持。 此外,Java语言还支持各种数据处理的算法和模型,如机器学习和人工智能算法。利用Java的强大编程能力和开发工具,可以对数据进行建模、训练和预测,从而进一步提高数据治理的质量和效果。 总之,Java作为一种强大的编程语言,具有丰富的工具和库支持,可以提供全面的数据治理能力。它能够帮助组织实现对数据的高效管理和控制,提高数据质量和价值,为数据治理决策提供有力支持。 ### 回答3: 数据治理是指对企业的数据进行全面管理、使用和维护的一系列活动和措施。数据治理的目的是确保数据的质量、准确性和完整性,并使其能够有效地支持企业的决策和业务需求。 在数据治理过程中,使用合适的工具是至关重要的。Java作为一种广泛应用于企业级开发的编程语言,可以提供一些强大的数据治理工具和框架。 首先,Java提供了许多开源的数据治理工具,如Apache Atlas、Apache Ranger和Apache Sentry。这些工具能够帮助企业建立元数据管理系统、数据访问控制和安全策略,从而实现对数据的全面管理和保护。 其次,Java还提供了丰富的数据处理和分析工具,如Apache Hadoop、Apache Spark和Elasticsearch等。这些工具数据治理中起到重要作用,可以用于数据清洗、转换、聚合和分析,帮助企业发现数据中的潜在问题和价值。 此外,Java的丰富的开发框架也为数据治理提供了支持。Spring框架和Hibernate ORM框架等可以帮助开发人员构建稳健的数据管理和访问层,简化数据治理流程。 最后,Java还有许多用于构建自定义数据治理工具工具包和库。开发人员可以使用Java编写自定义的数据质量检查工具、数据血缘追踪工具等,以满足特定的数据治理需求。 总而言之,Java作为一种强大的编程语言,提供了丰富的数据治理工具和框架,可以帮助企业进行全面的数据管理和治理。这些工具不仅能够提高数据的质量和可信度,还能够发现数据中的潜在问题和价值,为企业的决策和业务发展提供有力支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白杨Shayne

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值