AI+多协议 | 容纳数据的前世今生

上集回顾

图片

通过上一期文章我们了解到了AI模型训练解决方案,本期我们介绍AI工作流程中的数据采集、归档部分。

1

AI之数据采集与归档

在AI工作中,生成式AI正在深度改造业务智能领域。它能将关于业务问题的口头式请求转化为详尽的SQL代码,执行查询,并最终以文本形式返回答案。TaoCloud“AI数据存储平台”为数据采集和数据归档提供存储服务,并作为AI生产工作流中不可或缺的集成组件。下面是关于AI工作中数据采集和数据归档的一些重要信息:

01  AI之数据采集

数据采集通常可以通过三种途径。如,第三方数据公司进行购买;爬虫技术从网站上获取数据,通过API接口调用获取数据;传感器、设备等实时生成数据。

图片

采集到的数据可能存在缺失值、异常值等问题,需要进行数据清洗工作,确保数据质量。

针对监督学习任务,需要对数据进行标记(标注),以便机器学习算法能够从中学习。

采集到的数据需要及时存储在合适的存储系统中,以备后续的处理和训练使用。

02  AI之数据归档

数据归档是AI工作流程的最后一部分,指将AI流程中存在的数据进行长期保存的过程。

图片

通过合理的数据采集和数据归档工作,可以确保AI工作中所使用的数据质量高、可靠性强,从而提高机器学习模型的准确性和性能。

2

需求明确·直戳要点

01  AI之数据采集

AI数据采集作为AI大模型训练的前置步骤,对存储系统提出了一系列特殊要求。首先,随着AI应用的深入,数据采集阶段需要处理的数据量急剧增加,这对存储系统的容量提出了挑战。例如,GPT-3模型的训练数据量从GPT的5GB增长到了570GB,这要求存储系统必须具备足够的容量来存储和管理这些大规模数据集。

其次,数据采集过程中的数据多样性也是一个重要考量。AI模型往往需要处理来自不同来源、不同格式的数据,这就要求存储系统具备良好的兼容性和灵活性,能够支持多种数据类型和访问协议。例如,TaoCloud的FOSS分布式存储解决方案支持标准的S3接口与丰富的SDK等多种存储方式,以适应不同模态的数据需求。

此外,数据采集的效率也是关键。高效的数据采集可以加速后续的数据清洗和模型训练过程。因此,存储系统需要具备高IOPS和高带宽的性能,以支持快速的数据读写操作。例如,TaoCloud的FOSS分布式存储充分考虑了全闪存硬件和新型网络技术的特性,通过颠覆性的软件层IO栈设计,实现了IO处理效率的数量级提升。

图片

最后,数据采集阶段还需要考虑数据的安全性和可管理性。存储系统应当提供数据加密、访问控制等安全特性,以及数据生命周期管理、数据归档等管理功能,确保数据的安全和合规。例如,TaoCloud的FOSS分布式存储不仅支持常规的HTTP访问方式,还提供了HTTPS的TLS访问加密功能。通过使用HTTPS协议,FOSS对象存储在客户端与服务器端之间建立了一个安全的加密通道。访问控制方面FOSS支持访问令牌,即访问FOSS对象存储API的关键认证信息。

图片

综上所述,AI数据采集对存储的需求主要集中在大容量、多协议支持、高性能、高效率以及安全性和可管理性等方面。这些需求推动了存储技术的不断进步和创新,以更好地支持AI应用的发展。

02  AI之数据归档

是指将经过处理和使用后的数据进行长期保存的过程,这对于存储系统提出了一系列特殊要求。以下是AI数据归档对存储系统的需求:

【大容量存储】

随着AI模型和数据集的不断增长,存储系统需要具备足够的容量来保存大量的历史数据集。这些数据集可能包括文本、图片、音频、视频等多种格式,因此存储系统需要能够支持PB级甚至EB级的数据存储。

【成本效益】

归档数据通常不需要频繁访问,因此存储解决方案应该具有成本效益,能够以较低的成本提供长期存储。例如,对象存储是一种适合大容量、低成本归档的解决方案。

【数据保护和安全性】

归档的数据往往包含敏感信息,因此存储系统需要提供数据加密、访问控制等安全特性,确保数据的安全性和合规性。

【数据可访问性】

尽管归档数据不常访问,但仍需保证在需要时能够快速、方便地检索和恢复数据。这要求存储系统具备高效的数据检索能力和灵活的数据访问策略。

【长期保存和归档】

AI数据归档的目的之一是为了长期保存数据,存储系统需要能够支持长期的数据保存,且保证数据的完整性和可靠性。需支持对接使用磁带/蓝光存储提供长期、稳定的数据保存,实现完整的生命周期管理。

【兼容性和扩展性】

随着AI技术的发展,数据格式和处理需求可能会发生变化。存储系统需要具备良好的兼容性,能够适应未来的变化,并支持无缝扩展以应对数据量的增长。

图片

综上所述,AI数据归档对存储系统的需求主要集中在大容量、成本效益、数据保护、数据可访问性、长期保存、兼容性和数据生命周期管理等方面。这些需求推动了存储技术的不断进步和创新,以更好地支持AI应用的长期发展。

3

存储赋能·数据畅流

在AI工作中数据采集和数据归档的存储解决方案可以选用分布式存储系统来解决不同需求和场景的需求。

01  面向AI数据采集的存储解决方案

AI数据具有很高的价值,它们可以用于训练机器学习模型、进行分析和预测。因此,对这些数据进行合理的存储可以提高数据的易访问性和利用率。

图片

如上所示,TaoCloud以FOSS分布式全闪对象存储为数据底座,构建高性能存储集群,可提供高可靠、高带宽、易扩展、多协议共存的存储服务。

高性能的全闪系统:数据读写兼具高带宽与高并发,提升 GPU 利用率、减少端到端训练周期;

海量文件标签检索:采用数据标签把多模态、高维度的非结构化数据的特征保存,提升AI效率;

低TCO一体化存储方案:一套集群全业务支撑,支持冷热分级存储,同时支持数据生命周期管理,过期数据自动删除,空间利用率更高;

扁平的二层网络,易于部署、管理和维护;

存储网、业务网、管理网独立组网,安全高效;

支持统一与分组两种部署方式,释放网络性能。

02  面向AI数据归档的存储解决方案

AI训练结果数据本身就是非常宝贵的资产,对于许多公司和组织来说,这些数据是他们业务的核心。因此,有效的存储和归档能够确保这些数据的安全性和可靠性,避免数据丢失或损坏。

图片

如上所示,TaoCloud提出采用XDFS分布式统一存储作为存储底座。

XDFS搭载SATA HDD大容量硬盘,构建大容量HDD归档近线存储池,提供归档存储服务,实现数据全生命周期管理;

支持文件、块、对象存储服务一体化,满足用户不同业务类型的存储需求;

采用磁带库/蓝光构建离线存储系统。对在一定时间内没有访问的数据进行归档迁移操作,将这些数据按策略归档到磁带库中;

保证业务数据正常访问的情况下,充分节约在线和近线存储空间。

4

助力AI·澎湃前行

AI数据采集和数据归档部分对存储的重要性在于确保数据质量、支持数据访问和检索、保障数据安全和隐私、提供数据备份和恢复、实现数据管理和控制、支持数据分析和挖掘等方面。一个高效、安全、可靠的存储系统是AI工作中数据采集和归档的基础,对于整个AI工作流程的顺利进行至关重要。

TaoCloud作为分布式存储系统‘领导者’,在AI领域的存储方面见解独到。针对AI工作的每个部分分别做出不同的解决方案以供参考,为AI加速‘推波助澜’。

  • 36
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值