StarRocks 是国产开源、极速全场景MPP数据库,它采用新一代弹性MPP架构,可以高效支持大数据量级的多维分析、实时分析、高并发分析等多种数据分析场景,性能出色,比同类产品平均快3-5倍。
白山云大数据团队在两年多的学习和实践中,基于StarRocks搭建了全新的大数据平台,并已全量投入使用。因此我们将选型接入、改造优化的过程与经验进行分享,希望能为大家带来一些借鉴与思考。
选型思考
白山云CDN每天数万亿次访问的规模下,业务方需要实现全网日志写入分钟级延迟,查询毫秒级响应,旧的数据架构在性能、规模、分析与挖掘上都面临巨大挑战,大数据团队对数据底座提出了更高的要求。
在引入StarRocks之前,白山云大数据团队采用ClickHouse作为分布式数据库。ClickHouse是一个面向列的开源数据库管理系统,它使用C++编写,并支持SQL查询语言。随着业务的发展,ClickHouse逐渐暴露出一些明显的问题,例如查询速度慢、横向扩展能力差、数据写入时延长、故障恢复用时较长等。当遇到故障或问题时,ClickHouse全靠文档和阅读源码,这更造成解决问题的途径又变成新的问题。
因此白山云大数据团队开始寻找替代方案,目标是找到一款高性能、高可用的分布式数据库。经过选型评估,最终选择了 StarRocks 作为数据平台的底座。
我们认为StarRocks 主要的优点如下: