作者:陆晨炜(花名遣云)阿里巴巴智能引擎事业部数据开发
前言:
2022年的双11,阿里淘宝搜推集群承载上千万每秒的的流量峰值,消费者的每一次浏览、点击都通过搜推集群进行流转,与往年双11不同的是,降本增效在今年也变成了特别重要的一个技术课题。在此背景下,阿里搜索推荐团队与Hologres深度合作,在技术上,通过将传统的Text Array升级为JSONB,并使用JSONB列式存储,相比去年双11实现查询性能提升 400%+ ,存储下降45%,共资源节省数千core(预计节省成本数百万元),接受住双11生产稳定性考验,真正实现降本增效。
通过本文我们将会详细介绍Hologres JSONB在阿里搜索推荐团队的实践,以帮助更多企业通过技术手段助力业务快速增长。
业务介绍
阿里巴巴搜索推荐事业部的实时数据仓库承载了阿里巴巴集团淘宝、淘宝特价版、饿了么等多个电商业务的实时数仓场景,提供了包括实时大屏、实时报表、实时算法训练、实时A/B实验看板等多种数据应用支持。从2019年开始,搜索团队开始与Hologres进行共建,通过Hologres支撑了搜索推荐的多个应用场景,包括即席多维分析,A/B test等,详情可以查看往期精彩内容:
通天塔是搜索团队对外提供的实时数据分析产品,提供了手淘搜索、手淘推荐、拍立淘等多个业务的实时A/B报表服务,其重要功能之一为对A/B实验进行实时的对比观测。举个例子,算法同学需要看实验分层layerA下的1、2两个分桶的效果对比,需要从实时的数据分别统计 layerA:1、layerA:2 两个桶的指标,并计算GAP值。算法同学通常会通过通天塔报表查询实时的A/B实验效果,并对算法模型进行评估和调整。在实时报表中,我们还提供了各种维护的筛选项帮助用户对数据进行深入分析,如:用户属性、商品属性、类目属性、卖家属性等。

下图为通天塔主要的实时数据链路示意图,我们将采集到原始日志从TT(Datahub)中读取,在Flink流作业中,我们会对日志进行ETL处理,其中包括根据日志中的用户ID、商品ID、商家ID等关联对应的维表,并将相关属性字段一同存储到Hologres表,最后通过实时报表生成SQL Query,进行实时数据的查询分析。

我们近年来一直使用Hologres作为通天塔的实时数据查询引擎,因为我们的业务场景中,有很多的用户标签、商品标签、卖家标签和算法桶号等多值属性,以用户标签为例,业务上对用户的画像属性不是一成不变的,业务可能随时需要新增一类属性进行观测,如果每次都需要用

最低0.47元/天 解锁文章
2167

被折叠的 条评论
为什么被折叠?



