汽车之家(NYSE:ATHM)成立于2005年,为消费者提供优质的汽车消费和汽车生活服务,助力中国汽车产业蓬勃发展。我们致力于通过产品服务、数据技术、生态规则和资源为用户和 客户赋能,建设“车内容、车交易、车金融、车生活” 4个圈, 建立以数据和技术为核心的智能汽车生态圈,正式迈向智能化的3.0时代。
汽车之家目前在智能推荐的效果分析,物料点击、曝光、计算点击率、流量宽表等场景,对实时分析的需求日益强烈。经过多轮的探索,最终选定 StarRocks 作为实时 OLAP 分析引擎,实现了对数据的秒级实时分析。
“ 作者:邸星星,
汽车之家实时计算平台负责人 ”
实时数据分析的现状
在汽车之家内部,实时数据的来源主要是三部分:
- 手机端户行为的日志;
- 应用程序的服务端的日志;
- MySQL、SQLServer数据。
实时数据分析场景,目前面临的一些痛点包括:
- 使用 Flink 做指标聚合,Flink 聚合不灵活,面对需求的时候开发成本比较高的,面对多变的需求,经常需要重复开发;
- Kylin 支持指标预计算,并发支持较好,但是不能够支持高效的明细数据查询。在一些需要下钻或者获取明细数据的场景支撑的不够好;
- TiDB 不支持预聚合模型,某些数据量大的场景,聚合指标需要在线计算。在线计算会导致服务器压力瞬间增大,而且查询性能不稳定,取决于参与计算的数据量和当时服务器的负载情况。
为什么选择 StarRocks
上图是几个 OLAP 引擎的横向对比。StarRocks 作为一款新兴 OLAP 产品,具有以下几个突出的优点:
- 查询场景灵活:StarRocks 所能够支撑的查询场景比较灵活。既能够从明细数据进行聚合分析,也能基于预聚合的模型去提前构建好,加速查询;
- 兼容 MySQL 协议,平时使用 MySQL 的客户端就能进行查询和简单的运维:StarRocks 兼容 MySQL 协议,使用成本、运维成本都比较低;
- 全面向量化引擎,查询性能好:查询性能高,并且能支持较高的并发和吞吐;
- 架构精简,易于运维。
但是 StarRocks 作为 OLAP 界的“年轻人”,也存在一些不太成熟的方面