爱奇艺数据湖实战-广告数据湖应用

文章介绍了广告数据在面临时效性、查询性能和数据一致性挑战时,如何从传统的Lambda架构转向数据湖技术。数据湖提供近实时写入、存储流批一体、强一致性和低成本的优势,解决了广告业务中的实时数据检索、实时数仓和实时OLAP分析等问题,提升了数据处理的效率和用户体验。未来,广告数据将继续利用数据湖实现流批一体改造,并探索更高效的进度管理和查询性能优化。
摘要由CSDN通过智能技术生成

01

   背景

广告数据主要包括效果、品牌和ADX等广告形式的请求和投放链路中产出的一系列日志,经过处理后,用于算法模型训练、广告运营分析、广告投放决策等场景。广告业务对数据的时效性、准确性以及查询性能要求较高。目前,广告数据链路整体采用Lambda架构,存在离线、实时两条链路,带来较高的使用成本和数据不一致性风险。

为了解决这些问题,广告数据团队与爱奇艺大数据团队一起积极调研大数据前沿技术,很早就关注到数据湖技术的兴起与发展。数据湖不仅支持大规模的数据存储,还具备近实时的时效性和交互级查询效率,非常契合广告数据场景需求。针对广告数据的一些痛点和难点,我们在数据湖中进行了一系列尝试,本文将按照不同的需求和业务场景进行简单介绍。

除了广告业务,数据湖已在爱奇艺二十几个业务场景下应用,大幅提升数据流通效率,促进业务提速增效。关于数据湖的技术细节及应用,可以阅读之前发表的《爱奇艺数据湖实战》。

02

   广告数据架构

广告业务数据分析场景经常需要查询过去几个月的数据,涉及大量的数据,同时又要求端到端低时延、查询速度快。基于Hive构建的数据仓库没法满足这样的需求,在迁移到数据湖之前,广告数据链路采用业界通用的Lambda架构:

  • 实时数据链路:通过Spark Streaming任务消费Kafka实时流数据写入到Kudu。为了提高查询性能,Kudu服务部署在独立OLAP集群。同时,基于成本考虑,仅保留最近7天的数据

  • 离线数据链路:广告业务查询还需要最近90天的数据,因此需要将公共集群(多业务共用)上的最近90天的广告Hive数据同步至独立OLAP集群上的Hive表中

  • 数据查询:基于数据进度拆分查询到实时表和离线表,使用Impala自动拼接Kudu和Hive中的数据

如图2-1所示。

4f246b6c8d3400982295a6eb544c795c.png

图2-1 广告Lambda架构

该方案存在以下几个缺点:

  • La

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值