云原生企业级数据湖

基于对象存储 OSS 构建的数据湖,可对接多种数据输入方式,存储任何规模的结构化、半结构化、非结构化数据,打破数据湖孤岛。无缝对接多种数据分析产品,对存储在对象存储 OSS 中的数据直接进行大数据分析,洞察业务价值。同时,数据湖提供多种存储类型的冷热分层转换能力,通过数据全生命周期管理优化存储成本。

方案介绍

云原生企业级数据湖

对象存储 OSS 作为数据湖统一存储,可以存储来自于不同数据源的各类型数据。 通过多种存储类型实现数据冷热分层,可无缝对接 EMR 、PAI 等大数据分析和训练引擎。结合高性能文件存储 CPFS,实现 OSS 与 CPFS 数据双向流通,同时,热点训练数据以透明方式同步到 CPFS,通过 CPFS 的文件语义与机器学习平台 PAI 对接,满足高性能训练场景需求。

解决问题:数据孤岛林立

不同业务部门由于数据规模、数据类型不同而出现不同的数据孤岛,难以从统一位置访问和管理所有数据,数据无法实现有效共享。

解决问题:数据存储成本高

传统存储方案中不同类型数据往往需要不同的存储系统,同时,数据缺乏有效的生命周期管理策略,导致数据存储成本高。

解决问题:数据分析难,安全性低

传统方案无法有效对接数据分析平台,缺乏体系化的安全管理机制,无法实现数据加密和访问控制,难以保障数据的安全性和隐私性。

方案优势

一份存储、多种引擎

各种类型的数据以集中方式统一存储在对象存储 OSS,解决数据孤岛,避免数据分散在多种不同的系统,极大降低运维管理难度,基于生命周期管理,优化 TCO。无缝对接多种计算引擎,在需要分析阶段,再通过数据引擎进行处理。

数据无需处理、直接存储

支持结构化、半结构化、非结构化等多种类型数据,数据可以按照原始产生的形态直接存储到数据湖,支持多种数据输入源对接,提供便捷的数据接入和数据消费通道。

计算与存储解耦合

提供更灵活的系统架构设计,让计算、存储资源具备更好的可扩展性,对 Hadoop 生态体系有良好的支持能力,通过细粒度的权限控制、数据加密和日志记录与审计等机制保障数据安全。

应用场景

基于开源生态构建大数据分析

支撑 Hadoop 开源生态构建大数据分析方案,解决了传统 Hadoop 在扩展性、运维模式、成本优化方面的难题,覆盖离线分析、交互式查询、流式处理等多个数据管理场景,支持多种数据通道,全面覆盖日志、消息、数据库、HDFS 各种数据源接入。

海量数据冷热分层

大数据场景中有大量数据累积,并且数据随着时间推移访问热度会大幅降低。冷热分层能力将不同访问热度的数据存储在不同类型,解决了数据分散在各个集群,需要在不同存储系统中反复拷贝等运维困扰,优化长期存储成本。

基于数据湖的人工智能

通过数据湖支撑人工智能从训练数据存储、预处理、特征提取、训练、模型部署和推理多个重要过程,充分发挥机器学习平台的技术优势,凭借高吞吐能力,进一步训练速度提升,为人工智能算法提供有效数据支撑。

  • 13
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值