Hadoop的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展。随着大数据系统建设的深入,企业的数据基础设施易出现计算资源浪费、存储性能低、管理成本过高等挑战。相比存算一体架构,存算分离架构具有性能与成本最优、兼具灵活性等特点,因此受到企业IT部门的青睐,并纷纷开始对Hadoop架构进行改造。
为满足大数据不同场景需求,杉岩数据此前研发推出了兼容HDFS接口能力的高性能数据湖文件网关,为使湖仓一体方案更加完善,杉岩数据全新升级了面向AI训练、机器学习、大数据分析等场景的高性能文件存储——杉岩云原生文件存储(以下简称杉岩CNFS),为客户实现All in One的存储能力。
存算分离实现方案:客户端模式
杉岩CNFS支持客户端模式,提供HCFS(Hadoop Compatible File System,Hadoop兼容文件协议)接口实现,对HDFS接口协议完全兼容,可以保证应用层就像使用原生HDFS存储一样使用杉岩CNFS。
实际场景中,通过在计算平台部署安装专用的客户端与简单的配置,即可实现Hadoop平台的组件与分离部署的存储交互。针对业界使用比较广泛的CDH平台(Hadoop商业发行版之一),杉岩CNFS也开发了配套的Parcel资源包,利用CDH自身的管理便捷地配置使用杉岩CNFS提供的存储空间。
图1 杉岩湖仓一体方案存算分离实现(客户端模式)
但是像所有HCFS接口实现一样,侵入式的部署方式使计算组件有了额外的