Atlas——数据治理工具的使用

一、启动Atlas

1、启动前置环境

  1. 启动Hadoop 集群
  2. 启动Zookeeper 集群
  3. 启动Kafka 集群
  4. 启动Hbase 集群
  5. 启动Solr 集群

2、启动Atlas服务

  1. 进入atlas的bin目录,命令:cd /home/atlas/atlas/bin
  2. 执行启动脚本,命令:./atlas_start.py,等待2min
    在这里插入图片描述
  3. 访问hadoop01的21000端口
    在这里插入图片描述
  4. 使用默认账号登录,用户名:admin,密码:admin

二、初次使用时将Hive中元数据导入

Atlas 提供了一个Hive 元数据导入的脚本,直接执行该脚本,即可完成Hive 元数据的
初次全量导入。

1、导入元数据

  1. 使用hadoop01机器,进入到hook-bin目录,命令:cd /home/atlas/atlas/hook-bin
  2. 执行里面的自动化导入脚本,命令:./import-hive.sh
  3. 中途需要输入密码,输入系统自带的账户:admin,密码:admin
    在这里插入图片描述
  4. 等待系统提示成功
    在这里插入图片描述
  5. 去Atlas网页,点击右上角的数据展示,验证导入成功
    在这里插入图片描述

三、血缘关系功能使用

1、在hive上创建两个表

  1. 用hadoop01进入hive
    在这里插入图片描述
  2. 创建一张订单事实表
CREATE TABLE dwd_order_info ( 
    `id` STRING COMMENT '订单号', 
    `final_amount` DECIMAL(16,2) COMMENT '订单最终金额', 
    `order_status` STRING COMMENT '订单状态', 
    `user_id` STRING COMMENT '用户id', 
    `payment_way` STRING COMMENT '支付方式', 
    `delivery_address` STRING COMMENT '送货地址', 
    `out_trade_no` STRING COMMENT '支付流水号', 
    `create_time` STRING COMMENT '创建时间', 
    `operate_time` STRING COMMENT '操作时间', 
    `expire_time` STRING COMMENT '过期时间', 
    `tracking_no` STRING COMMENT '物流单编号', 
    `province_id` STRING COMMENT '省份ID', 
    `activity_reduce_amount` DECIMAL(16,2) COMMENT '活动减免金额', 
    `coupon_reduce_amount` DECIMAL(16,2) COMMENT '优惠券减免金额', 
    `original_amount` DECIMAL(16,2)  COMMENT '订单原价金额', 
    `feight_fee` DECIMAL(16,2)  COMMENT '运费', 
    `feight_fee_reduce` DECIMAL(16,2)  COMMENT '运费减免' 
) COMMENT '订单表' 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
  1. 创建一张地区维度表
CREATE TABLE dim_base_province ( 
    `id` STRING COMMENT '编号', 
    `name` STRING COMMENT '省份名称', 
    `region_id` STRING COMMENT '地区ID', 
    `area_code` STRING COMMENT '地区编码', 
    `iso_code` STRING COMMENT 'ISO-3166 编码,供可视化使用', 
    `iso_3166_2` STRING COMMENT 'IOS-3166-2 编码,供可视化使用' 
)  COMMENT '省份表' 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

2、使用hive网页功能将数据上传进表中

  1. 访问hive网页,地址:hadoop01ip:9870,点击Utilities下拉菜单的Browse the file system选项
    在这里插入图片描述
  2. 在搜索栏搜索/user/hive/warehouse/dwd_order_info
    在这里插入图片描述
  3. 点击右侧上传按钮将数据上传,数据下载地址.
  4. 或者进入hive中使用命令导入
#追加导入
load data local inpath '/home/atlas/1.txt' into table dwd_order_info;
#覆盖导入
load data local inpath '/home/atlas/1.txt' overwrite into table dwd_order_info;

3、根据订单事实表和地区维度表,求出每个省份的订单次数和订单金额

  1. 创建查询结果表
CREATE TABLE `ads_order_by_province` ( 
  `dt` STRING COMMENT '统计日期', 
  `province_id` STRING COMMENT '省份id', 
  `province_name` STRING COMMENT '省份名称', 
  `area_code` STRING COMMENT '地区编码', 
  `iso_code` STRING COMMENT '国际标准地区编码', 
  `iso_code_3166_2` STRING COMMENT '国际标准地区编码', 
  `order_count` BIGINT COMMENT '订单数', 
  `order_amount` DECIMAL(16,2) COMMENT '订单金额' 
) COMMENT '各省份订单统计' 
ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t';
  1. 将查询结果装入结果表中
insert into table ads_order_by_province 
select 
    '2021-08-30' dt, 
    bp.id, 
    bp.name, 
    bp.area_code, 
    bp.iso_code, 
    bp.iso_3166_2, 
    count(*) order_count, 
    sum(oi.final_amount) order_amount 
from dwd_order_info oi 
left join dim_base_province bp 
on oi.province_id=bp.id 
group by bp.id,bp.name,bp.area_code,bp.iso_code,bp.iso_3166_2;

4、查看结果表的血缘关系

  1. 查看总体关系
    在这里插入图片描述

5、查看表中某一字段的血缘关系

  1. 点击表的Schema
  2. 点击某一字段
    在这里插入图片描述
    在这里插入图片描述
  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值