数据湖
文章平均质量分 87
mojolang
精品驿站
展开
-
Apache Iceberg 对推荐应用架构的优化及读写流程解析本文
Apache Iceberg应用场景示例:在之前的文章中相信大家已经对Iceberg有了很多了解,Iceberg具有 ACID,隐式分区,partition evolution等功能。那么这些功能在实际的应用场景中会有什么收益呢?我们来看一个大数据应用中比较典型的业务 “广告/信息流推荐服务"。在推荐服务中,业务往往通过join用户的点击、曝光数据来生成正负样本,然后用增量的样本数据比较实时的更新在线模型。在增量样本更新过程中总有延时到达的点击数据因为无法及时join而被当做负样本处理了,所以需要每转载 2022-02-17 00:36:51 · 586 阅读 · 0 评论 -
Apache Iceberg 中三种操作表的方式
在ApacheIceberg 中有很多种方式可以来创建表,其中就包括使用 Catalog 方式或者实现 org.apache.iceberg.Tables 接口。下面我们来简单介绍如何使用。.使用 Hive catalog从名字就可以看出,Hive catalog 是通过连接 Hive 的 MetaStore,把 Iceberg 的表存储到其中,它的实现类为 org.apache.iceberg.hive.HiveCatalog,下面是通过 sparkContext 中的 hadoopConfi..转载 2022-02-08 09:31:36 · 913 阅读 · 0 评论 -
Apache Iceberg的Schema Evolution详解
导语作为构建新一代数据湖的三个中间件Apache Iceberg, Apache Hudi, Delta Lake都支持Schema Evolution,但是三者的支持能力不尽相同,其中Iceberg宣称支持 Full Schema Evolution。本文将详细分析Iceberg 的Full Schema Evolution, 同时捎带对比下和Delta Lake以及Hudi的Schema Evolution的不同。为什么需要Schema Evolution用户的数据随着时间和业务量的增长会需转载 2022-02-08 09:33:44 · 1894 阅读 · 0 评论 -
Apache Iceberg特点分析
导言去年4月Databricks在Spark+AI summit上公布了Delta Lake项目,于此同时在Apache社区也有两个非常类似的项目Apache Iceberg和Apache Hudi在锐意开发中,这3个项目不管是在定位还是在功能方面都非常的类似,在大数据发展到现阶段为什么会涌现出这3个类似的项目呢,他们有什么差别呢?本文将从几个方面来介绍为什么我们需要这样一种技术,以及在这3个项目中为何我选择Apache Iceberg。如何定义这类新的技术Delta Lake将其定义为:转载 2022-02-08 09:25:57 · 1278 阅读 · 0 评论 -
Apache Iceberg快速入门
导言本文主要介绍如何快速的通过Spark访问Iceberg table。Spark通过DataSource和DataFrame API访问Iceberg table,或者进行Catalog相关的操作。由于Spark Data Source V2 API还在持续的演进和修改中,所以Iceberg在不同的Spark版本中的使用方式有所不同。版本对比功能 Spark 2.4 Spark 3.0 基于DataFrame - 读数据 支持 支持 -转载 2022-02-08 09:22:29 · 1147 阅读 · 0 评论 -
Apache Iceberg 对推荐应用架构的优化及读写流程解析本文
Apache Iceberg应用场景示例:在之前的文章中相信大家已经对Iceberg有了很多了解,Iceberg具有 ACID,隐式分区,partition evolution等功能。那么这些功能在实际的应用场景中会有什么收益呢?我们来看一个大数据应用中比较典型的业务 “广告/信息流推荐服务"。在推荐服务中,业务往往通过join用户的点击、曝光数据来生成正负样本,然后用增量的样本数据比较实时的更新在线模型。在增量样本更新过程中总有延时到达的点击数据因为无法及时join而被当做负样本处理了,所以需要每转载 2022-02-08 09:15:35 · 667 阅读 · 0 评论