数仓领域的未来趋势解读

最新推荐文章于 2024-01-02 01:20:57 发布

字节数据平台

最新推荐文章于 2024-01-02 01:20:57 发布

阅读量1.2k

点赞数

文章标签：数据仓库 big data 云计算

本文链接：https://blog.csdn.net/m0_60025795/article/details/125295289

版权

更多技术交流、求职机会、试用福利，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

IDC 2021年报告数据显示，2021年全球大数据软件市场规模达预计可达5414.2亿人民币。“十三五”时期，我国大数据产业快速起步，产业发展取得显著成效，《“十四五”大数据产业发展规划》更是提到：到2025年，我国大数据产业规模预计将突破3万亿元。

越来越多企业正在探索自身数字化转型，政务、金融等各行业也在不断进行数字化产业升级，对数据仓库的易用性、性能等提出了更高的要求。

本篇从业务需求和技术趋势两个层面，分别介绍新时代下数据仓库发展趋势。

业务需求：实时性、低成本、快速上云

在企业级数据仓库场景中，需要融合来自多个业务系统数据库的业务数据，比如交易记录，包括银行存取记录、用户订单记录等，大多数为千万至亿条规模；比如用户行为日志，往往是数据量最大的数据源，包括用户访问日志、用户操作记录等，数据量通常是业务数据的数百倍。

随着大数据应用的深入发展，最核心的业务需求如下：

最近10年，以hadoop技术体系为代表的大数据平台大规模部署，大大小小的企业和政府部门都搭建了大数据平台和分析应用，以隔天和小时级数据延迟的应用得到了普及；以Flink为代表的实时计算引擎解决了数据统计场景的时效性问题。

随着业务的发展和技术的进步，业务部门不再满足于T+1的分析需求和固化的实时统计，更期望业务发生后秒级/分钟级延迟即可看到统计结果；同时，功能上期望实现交互性探查分析数据，毫秒/秒级返回结果保持良好的用户体验。

在新的企业级数据架构中，有些已经构建了大数据平台的企业，会使用云原生数据仓库构建实时数仓来满足有高时效性要求的业务，以此作为Hadoop平台的补充；有些数据量低于1PB，且没有构建Hadoop等大数据平台的企业，则直接以云原生数据仓库构建轻量级数据仓库。

大数据应用逐步从互联网企业和政府部门，并深入到工业企业。各行业都先后进行了业务数据的大集中、用户行为数据和IOT数据的广泛采集存储，企业和政府单位的数据量更是以每年呈现30%以上的增长速度。

在过去集中式架构的数据仓库方案中，建设成本与数据总量正相关，导致成本居高不下；采用基于分布式架构的大数据方案中，由于存储计算耦合，为了满足存储空间膨胀，需要采购越来越多的服务器。实时的数据采集和存储更是导致数据量持续高速增长。

在新的云原生数据仓库方案中，既要解决数据和应用增长带来的扩展性问题，同时要解决成本问题，将数据存储和计算成本处于可控范围。

根据智库报告的研究，目前业务上云已经形成趋势，除游戏视频电商等泛互联网企业之外，在政务、金融、制造业等领域，正在以私有云和混合云的方式持续上云，从而实现数据上云。

政务云和金融云是两大主要的行业云，平台建设水平较高，同时制造业、医疗卫生、交通等领域的行业云也在加速变革和加快建设行业云平台大规模建设和升级，实现数字化管理和运营。

制造业设备上云和云化改造能够实现制造业企业的数据互通和业务互联，支撑形成以数据驱动的智能化制造、实现供应链和上下游业务的网络化协同，以及实现对业务和设备的数字化管理等制造业发展新模式，引领制造业数字化转型。

业务上云从而数据上云，也在推动数据处理平台的云原生升级。

近年来，以Snowflake为代表的云原生数据仓库得到了客户的认同，市场上取得了巨大的成功。其核心功能和技术点是云原生的架构设计，利用IAAS的高可用和资源池化特性，通过存储计算分离、多租户隔离、容器化技术，提供数据仓库的扩展性、稳定性、可维护性和易用性，整体上提高资源利用率。

国际上，除了Snowflake之外，谷歌的BigQuery、AWS的RedShift、Azure的Synapse都实现了云原生的架构升级，实现了存储计算分离和多租户管理。Databricks、Fireblot等新生的厂商及产品如雨后春笋一样涌现出来。

在国内，阿里云、华为云、腾讯云都推出了自己的云原生数据仓库产品；PingCap的TiDB、鼎石科技的StarRocks等独立产品也选择了云原生道路。

OLAP产品有如下几个技术趋势：

基于公共云、私有云或混合云的架构设计，应用容器化和微服务等云原生技术，以此实现敏捷开发、敏捷运维，天然解决扩展性问题。

对数据存储层进行统一抽象，灵活采用HDFS块存储或S3等对象存储作为数据存储载体，最终实现存储服务化，便于解决存储扩展性、读写吞吐瓶颈问题、数据一致性问题，同时能大幅降低存储成本。此外，实现存储服务化后，对于产品的跨云兼容和多云部署带来方便。

由于OLAP应用负载的波动特点，特别在支持多租户的场景下，通过计算资源池化，根据实时负载进行计算资源统一调度管理，实现资源隔离的同时，又能支持资源共享和实时弹性扩缩。从而提高集群整体利用率。

在企业级应用中，OLAP场景可以细分为交互查询和批量计算，前者要求毫秒/秒级响应并支持高并发查询，后者可以接受分钟/小时级延迟，但要求计算性能的稳定性和较好的failover机制。自适应支持多场景的混合负载是OLAP产品的核心能力。

OLAP平台中的计算资源、内存、网络带宽是最宝贵的资源，系统资源利用率通常围绕这三个资源进行优化。很多产品开始在计算Serverless化、分布式缓存等方向进行探索。

点击了解火山引擎ByteHouse更多产品信息

关注