Iceberg+Amoro+CloudEon体验云原生数据湖

组件版本

Kubernetes 1.21.5
cloudeon 1.2.0
Iceberg 1.2.1
Amoro 0.5.0
Spark 3.2.3
Flink 1.15.4
Hadoop 3.3.4

在Kubernetes上搭建大数据基础环境

之前的文章有介绍过怎么在Kubernetes上快速搭建大数据基础环境,这里就不重复介绍了。安装完后,可以看到如下图各个基础服务都启动完成。
image.png

安装Amoro

Amoro是一个开源的数据湖管理系统。在安装Amoro之前,需要选择要安装的服务和节点,并准备好MySQL数据库。
选择安装服务 分配角色实例到指定节点安装 修改初始化配置,需要填写mysql信息,数据库得提前自行准备好 安装成功 可以用在Kubernetes集群上看到对应的pod

开启Iceberg支持

Iceberg是一个数据湖开源项目,用于管理大规模数据的表格式。要在Cloudeon上启用Iceberg支持,需要配置相应的参数。
Spark开启Iceberg插件:
image.png
Flink开启Iceberg插件:
image.png

HDFS上创建Iceberg数据目录

为了使用Iceberg,需要在HDFS上创建Iceberg的数据目录。
连接hdfs-namenode的pod shell,在hdfs上创建Iceberg的数据目录/Iceberg/warehouse
image.png

Amoro上托管Iceberg

在Amoro中,您可以托管Iceberg表,实现数据湖表的管理和自优化。
打开Amoro服务页面,默认密码是admin/admin
image.png

配置catalog托管Iceberg。
这里需要上传cloudeon安装的hdfs服务的core-site.xml和hdfs-site.xml文件。
选择外部Catalog,metadata选择hadoop。
需要设置属性warehouse=/Iceberg/warehouse。
image.png

配置Optimizer Group,先要添加group 选择FlinkContainer,需要手动设置参数taskmanager.memory和jobmanager.memory 设置scale out,配置并行度,点击确定后,Amoro会启动一个Flink作业并提交到YARN上 等待一会,可以看到Optimizers识别到了YARN上的Flink作业也可以看到在YARN上看到Flink作业正在运行了 image.png

Flink生成流式数据写入Iceberg

使用Flink SQL,可以生成流式数据并将其写入Iceberg表。
连接Flink-history的pod shell,启动Flink standalone集群,生成一些测试数据。image.png
standalone集群启动成功后,启动sql-client。

sql-client.sh

打开后,输入脚本测试。

CREATE CATALOG iceberg_catalog WITH (
  'type'='iceberg',
    'catalog-type'='hadoop',
      'warehouse'='hdfs:///iceberg/warehouse'
      );
CREATE TABLE datagen_v1 (
 id INT,
  user_id INT,
   city STRING,
    cost double,
     order_time TIMESTAMP
     ) WITH (
      'connector' = 'datagen',
       'rows-per-second'='5',
        'fields.id.kind'='sequence',
         'fields.id.start'='1',
          'fields.id.end'='1000',
           'fields.cost.min'='1',
            'fields.cost.max'='1000',
             'fields.city.length'='10'
             );


CREATE TABLE `iceberg_catalog`.`default`.`order` (
    id BIGINT COMMENT 'unique id',
        user_id BIGINT,
            city STRING,
                cost DOUBLE,
                   order_time TIMESTAMP,
                      PRIMARY KEY (id) NOT ENFORCED
                      ) WITH (
                          'format-version'='2', 
                              'write.upsert.enabled'='true',
                                  'write.metadata.metrics.default'='full'
                                  );
SET execution.checkpointing.interval = '30s';

insert into `iceberg_catalog`.`default`.`order`  select * from datagen_v1;

这段脚本执行完后,会创建Iceberg表,并在hdfs上创建存储目录,Flink会不断插入测试数据到Iceberg表中。
image.png

Spark写入数据

Spark也可以用于写入数据到Iceberg表。
连接Spark-thriftserver的对外暴露的端口,使用DBeaver连接后进行操作

set `spark.sql.iceberg.handle-timestamp-without-timezone`=`true` ;


insert into `default`.`order` values(9990,1,'beijing',200,timestamp("2023-09-01 12:31:00")),(9991,2,'shanghai',322,timestamp("2023-09-01 12:32:00")),(9992,3,'beijing',100,timestamp("2023-09-01 12:33:00"));

select * from `default`.`order` WHERE id >9000;

UPDATE   `default`.`order` set cost= cost+1000  WHERE id >9000;

image.png

Amoro自动优化Iceberg表

Amoro能够自动优化Iceberg表的性能,包括文件存储优化。可以通过Amoro的界面查询Iceberg表的schema信息和文件信息,以查看优化效果。也可以通过Web终端查询Iceberg的数据。

打开Amoro,可以看到order表详情。
image.png
Amoro会自动优化表存储的文件
image.png
也可以通过Amoro的web终端进行查询Iceberg的表。

set `spark.sql.iceberg.handle-timestamp-without-timezone`=`true` ;
select * from `default`.`order`;

image.png
Amoro的web终端内置使用的是Sparksql,用的是local模式。
Amoro也支持web终端对接kyuubi,后面可以试试。

总结

通过使用Cloudeon、Iceberg、Flink、Spark和Amoro,您可以轻松地在Kubernetes上构建一个强大的大数据基础环境。这个环境不仅支持流式数据生成和处理还有批处理,还能借助Amoro实现数据湖表的自动优化性能,为大数据应用提供了可靠的基础设施。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 数据湖Iceberg是一种新型的数据存储模式。它不同于传统的数据仓库,数据湖Iceberg通过分层结构对数据进行存储,可以支持更加灵活和高效的数据处理及分析。 数据湖Iceberg的核心概念是“iceberg table”,即冰山表。冰山表是一个包含了数据的所有历史版本的可变表格。它允许在表的顶层进行数据的增、删、改操作,而历史版本则被保留在表的底层。当我们进行数据分析时,可以选择按需加载较新的数据版本以加快查询速度,而历史版本则可用于数据可追溯性和合规性的要求。 数据湖Iceberg同时支持分布式和即席查询,可在存储大规模数据的同时支持高效处理。此外,Iceberg还提供了Schema Evolution功能,允许数据模式随着时间的推移而改变。 综上所述,数据湖Iceberg是一种具有高度灵活性和可伸缩性的数据存储方法,可以为企业提供更好的数据处理和分析体验,从而提高企业的决策效率和业务竞争力。 ### 回答2: 数据湖Iceberg是一种高度可扩展和灵活的数据存储模型,可帮助组织快速处理和管理大量的非结构化和半结构化数据。与传统数据仓库不同,数据湖的设计原则在于不结构化数据,具有高度可扩展性和灵活性。 Iceberg是一种构建于数据湖之上的开源存储框架,它使用多种数据格式,从传统的Hadoop MapReduce,到Spark,到AWS,到Azure,以及其他类似的技术,可以运行在静态访问和动态查询两种模式下,以便更好地管理和查询数据湖中的数据。Iceberg能够支持多种存储引擎,并且支持多个语言。 Iceberg提供了一种可靠的分布式事务技术,确保数据完整性和一致性。此外,它还提供了一种轻松访问历史数据的方法,同时还能检测到数据更改的时间,并允许用户向不同的存储层提供不同的数据视图。 总之,数据湖Iceberg为大数据处理提供了一种可靠和灵活的存储和查询解决方案,并且对Hadoop生态系统的使用和扩展非常友好。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值