目录
原文大佬写的这篇EMR StarRocks数仓建设案例有借鉴意义,这里摘抄下来用作学习和知识沉淀。如果侵权,请告知~
一、数据需求产生
猿辅导成立多年,早期是基于关系型的MySQL数据库来做数据的需求。随着业务的发展,多个服务在一个 DB去做数据的汇总,以及一些微服务架构的产生,使得数据逐渐走向分裂,很难在 MySQL 里完成统一的数仓。
因此在2014年,公司开始了统一数仓的假设,采用的是比较成熟的Hadoop体系。虽然是用hive,mapreduce做离线的批量ETL,但是为了保证用户交互足够快,延迟足够短,还是会把最终的应用层的数据放在Mysql中来处理,包括现在很多离线需求也仍然是这样的一个链路。
随着公司业