日前,腾讯云高级工程师程力老师在 ArchSummit 全球架构师峰会上分享了存算分离架构下的数据湖架构。
针对存算分离架构带来的性能问题和数据本地性减弱问题,腾讯云的数据湖方案设计构建了新一代分布式计算端缓存层。该缓存不仅兼容 Hadoop 和对象语义,同时具备了结构化元数据管理的特性,还充分利用了对象存储 COS 的弹性伸缩和低成本的优势。
下面,让我们一起回顾下程老师的精彩演讲内容。
数据存储发展趋势
可分为4个阶段:
第一阶段:存算一体,孤岛
十几年前,网络速度远低于本地磁盘吞吐速度的时候,本地化读取数据可以换取更高的吞吐性能。但随着网络速度不断加快,磁盘吞吐速度逐渐成为计算瓶颈,本地盘 HDFS 压力加大,运维成本升高,可网络带宽资源却闲置,导致业务效率低下。