众所周知,算力、算法、数据被称为AI“三驾马车”。“三驾”的步调一致、并驾齐驱,马车才能畅行无忧。
长期以来,算力被认为是制约大模型发展的关键因素。DeepSeek的横空出世,通过优秀的算法,让大模型实现了低成本算力基础设施运行,大模型“飞入寻常百姓家”正在成为现实。可以说,DeepSeek是算力与算法协同发展的样板。
而数据在AI中的重要性日益凸显,一方面,更多更高质量的数据集为更好的大模型及其应用奠定基础;在资本市场,2024年以Innodata为代表的数据企业正在接力成为AI的新爆点;另一方面,随着非结构化数据的爆发,如何更高效地管理数据、保持与算力和算法齐头并进,成为新课题。
2月18日,一款被Meta首席工程师誉为“简直就是魔法”的数据管理利器——Hammerspace全球首款高性能全局数据平台,首次在北京举办了亚太区线下发布活动。
打破传统存储,以数据为中心
“Hammerspace”,从字面意思上来看不出所以然。但Hammerspace公司全球市场营销高级副总裁Molly Presley的一番解释,让我们看到了他们所向往的星辰大海——“Hammerspace”是一个漫画届的“专有名词”,意味着一个可以即时进入且大小无限的超维空间。这一含义像极了西游记中的“乾坤袋”、或是玄幻小说里面的“收纳戒指”的超能力?只是Hammerspace里面,装的是数据。
要做到“一个可以即时进入且大小无限的超维空间”,这并非易事,因此必须要进行一场变革。从Hammerspace的现场分享里面,我们了解到了其变革的要义:
传统的数据管理以存储为中心,数据被困在存储,非结构化数据形成孤岛,性能受限,缺乏云端敏捷性,数据管理依赖人工操作。因此,Hammerspace真正改变了数据被使用以及保存的方式——以数据为中心,让数据成为全局资源,实现了数据全局访问、AI/HPC级的性能与扩展,并且能无缝延伸至云端,自动化数据编排。
- 使用Tier 0技术:融合Tier 0层到归档层,有效提升GPU设备中存储容量的利用效率,降低存储成本,减少能耗数字,消除数据孤岛现象,加速数据价值实现;
- 边缘、核心、多云环境的全部覆盖:实现协同作业,提升云端敏捷性,降低云端成本,加速数据流通;
- 自动化数据编排:内置数据编排与数据服务,将文件与对象数据整合,自定义策略驱动数据管理,借助图形化策略引擎,简化数据迁移流程,降低数据管理成本,简化数据治理体系,确保数据存储与目标保持一致。
Tier 0:Hammerspace的技术护城河
Hammerspace高级总监Eric Bassier在演讲中说:“使用Tier 0技术,能够实现真正意义上的全局数据平台”。这道出了Hammerspace的看家本领,而且目前业界“只有Hammerspace可以提供Tier 0”。
Hammerspace认为,传统意义上来说,GPU服务器内置的NVMe存储,使用率低,GPU的本地存储应该被利用起来。而Hammerspace Tier 0技术,可以利用服务器本地的NVMe磁盘打造Tier 0,减少GPU闲置时间,降低成本与能耗,更快实现设备价值。以10 PB数据量环境举例,基于Tier 0,可以节省300万—400万美元的外部闪存存储硬件成本、数据中心实现3-5 个Rack的空间节省,且在三年间,可节省能源消耗约300万度电。
由此,Hammerspace推出了适用于GPU计算场景的全新NAS架构——Hyperscale NAS架构,它打破了传统NAS集群无法提供的线性性能扩展的题,基于标准协议实现的HPC级性能线性扩展,具备了网络弹性(TCP/IP、RoCE,、IB)、软件定义,并且实现了数据与存储硬件解耦。这意味着只要用的是Linux系统,并可以对外提供NFS v3,任何处理器、Linux衍生操作系统均可以适配使用。
Hammerspace坚信“比高速网络更好的唯一方法就是没有网络”,因此其向Linux提交超过2400个增强功能和补丁,实现了存储+数据细分赛道的Linux原生系统,让数据受保护、可编排,GPU服务器内读带宽提高12倍,写带宽提高3倍,并且完全基于标准协议,无需安装特殊软件。
不只于AI,Hammerspace志在千行百业
成立于2018年的Hammerspace,2021年产品首发,而自2023年起,Meta就成为Hammerspace的用户。要知道,互联网巨头们,很多时候但凡自己能干,就不会假手他人。况且在Meta,Hammerspace服务的可是当红炸子鸡——Llama 2和Llama 3模型训练,能得到Meta的认可,Hammerspace是有两把刷子的。据了解,Hammerspace基于标准协议的架构,为Meta的3,000台GPU服务器、24,000块GPU、1,000节点的存储集群提供了12.5 TB/秒聚合吞吐量的支持。
而为了让众多想抓住AI东风的企业用上Hammerspace,此次面向亚太市场,推出了吞吐优化、容量优化的两大系列六款Hammerspace预配置设备,满足不同的客户需求。
当然,Hammerspace也表示,它并不是只为AI而生,所有对更高性能、更大规模有需求的场景,都可以是它擅长的领域。
比如在视觉特效领域,为《星球大战:最后的绝地武士》《怪奇物语》《守望者》等多部好莱坞知名影片制作视觉特效和动画的Jellyfish Pictures公司,通过Hammerspace实现了数据智能调度,赋能全球协同制作,节省了超300万美元的云渲染成本。
再比如航空航天企业Blue Origin,其Hammerspace覆盖9个地点,数据访问速度提升80%,通过AWS分级存储节省了超100万美元成本。
”我们非常高兴地宣布,我们已与Hammerspace达成了一项针对亚洲地区市场的战略合作协议。通过将Hammerspace的突破性技术与Hammerspace Asia公司在企业交付和市场知识方面的卓越能力相结合,我们将为整个区域的组织赋能,帮助他们解锁新的效率,扩展AI项目,并以前所未有的方式推动创新。这一合作伙伴关系的建立,标志着我们在投资和致力于为客户提供创新业务解决方案方面,迈出了重要的一步。” Hammerspace Asia中国区业务负责人李睿先生表示。
日前,Hammerspace已正式成立亚太区,计划重点开拓包括中国、印度、韩国、日本、东盟等国家及地区的市场。其中,中国作为当前全球人工智能创新最为活跃的市场,Hammerspace如何在中国市场布局引发高度关注。在笔者看来,Hammerspace正在以一把魔法之锤,引领着新一代的数据管理潮流。