Alluxio-CSDN博客

原创高达99.57%GPU利用率，Alluxio在MLPerf Storage v2.0基准测试中展现卓越性能

最新的 MLPerf Storage v2.0 测试结果显示，Alluxio 通过分布式缓存技术大幅加速了 AI 训练和 checkpointing 工作负载的 I/O 性能，在多种常见的由于 I/O 瓶颈导致 GPU 利用率不足的场景中，成功将 GPU 利用率提升至 99.57%。

2025-08-25 11:48:31 1007

原创 Alluxio Enterprise AI 3.6发布｜加速模型分发、优化checkpoint写入并增强多租户支持

Alluxio Enterprise AI 3.6加速模型分发、优化checkpoint写入并增强多租户支持

2025-05-30 11:26:43 666

原创架构分享｜三层存储架构加速云端大模型推理

在云端部署大规模 LLM 推理时，存储系统需满足数百张GPU的高吞吐、低延迟数据供给需求。三层存储架构（本地NVMe高速层、集群共享缓存层、云对象存储层）已成为行业最佳实践。

2025-05-30 10:46:16 1188

原创案例分享｜Coupang 如何利用分布式缓存加速机器学习模型训练

在Alluxio近期举办的线上技术讲座中，Coupang资深后端工程师Hyun Jun Baek 分享了Coupang如何利用分布式缓存加速机器学习模型训练。本文提炼了Hyun分享的核心观点，重点介绍了Coupang的分布式缓存方案如何重塑其跨区域混合云机器学习平台。

2025-05-28 17:23:36 899

原创 Alluxio Enterprise AI 3.5 发布，全面提升AI模型训练性能

近日，Alluxio 发布 Alluxio Enterprise AI 3.5 版本。该版本凭借仅缓存写入模式 ( Cache Only Write Mode )、高级缓存管理策略以及 Python 的深度集成等创新功能，大幅加速 AI 模型训练并简化基础设施运维，助力企业高效处理海量数据集、优化 AI 工作负载性能。

2025-02-18 11:24:05 1124

原创 Alluxio 联手 Solidigm 推出针对 AI 工作负载的高级缓存解决方案

Solidigm 和 Alluxio 联合推出了高效的分布式 AI 缓存方案。通过将 Solidigm 的 D5-P5336 用作读缓存，D7-PS1010 用于 checkpoint 写入，并搭配 Alluxio 的低操作开销解决方案，帮助客户实现了大规模 AI 场景下成本和性能的最佳平衡。

2025-01-21 15:59:28 1618

原创 Alluxio数据流转方案在联通智网的应用

来自中国联通大数据平台的陈得泳，将分享Alluxio数据流转方案在联通智网的应用实践。

2025-01-16 15:16:51 1301

原创 MLPerf基准测试冲出黑马，Alluxio新范式引爆AI存储

在此次 MLPerf™ Storage 基准性能测试评估中，Alluxio 凭借其创新的技术架构，在多种 AI 模型训练场景中展现了卓越的性能和良好的可扩展性。此外，在方案成本方面，Alluxio 的缓存方案优势明显。用户不仅无需投入高昂的费用购买专用的 AI 存储设备，还能显著降低云端的数据访问成本，从而进一步减少用户在云环境中的综合支出。后续我们将提供更多维度的测试对比数据和应用案例，以帮助更多用户构建更优质的 AI 平台。

2024-12-19 17:22:09 833

原创案例分享｜企查查的数据降本增效之路

在当今快速发展的数字化时代，数据已成为企业和组织最宝贵的资产之一。然而，随着数据量的激增，如何有效管理和利用这些数据，同时降低成本、提高效率，成为了一个重要议题。本次分享将围绕“数据的降本增效之路”这一主题，探讨数据管理与分析的最佳实践，以及如何通过技术创新实现数据的优化利用。

2024-12-19 16:52:01 1443

原创 Alluxio 在B站AI训练场景的应用

B站 AI 训练场景介绍；Alluxio 如何提升 AI 训练效率；未来规划。

2024-11-21 17:54:25 1220

原创 Alluxio在小红书的实践：加速云端机器学习

本文主要介绍小红书多云统一数据加速层的内容，主要内容包括以下几个部分：1.小红书在复杂的多云环境下面临的挑战；2.如何通过构建多云统一数据加速层来解决这些技术问题；3.结合小红书的具体实践案例，介绍多云统一数据加速层是如何解决这些问题的；4.未来规划。

2024-11-21 16:38:29 1271

原创 Alluxio AI助力知乎千卡模型训练

Alluxio 社区版为知乎带来了混合云下 AI 存储的通用解决方案，使其能够在短时间内从自研组件无缝切换到 Alluxio 高性能缓存上，支持知乎实现跨云训练；其次，在更加核心的场景下，Alluxio 企业版为知乎带来了更高的稳定性，更好的性能，更便捷的运维，更是支持了知乎内部千卡大模型的训练稳定高效运行。

2024-11-21 11:17:59 1045

原创案例分享｜Shopee 在 Alluxio 加速 AI 训练的实践与探索

Shopee Data Infra的分布式存储开发工程师-孙颢宁，带来分享：Shopee在Alluxio加速AI训练的实践与探索

2024-10-15 18:41:55 932

原创 Alluxio在数据索引和模型分发中的核心价值与应用

在当前的技术环境下，搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息，进行模型训练和推理。这一过程需要强大的数据分发能力，尤其是在多个服务器同时拉取同一份数据时，更是考验基础设施的性能。在这样的背景下，Alluxio Enterprise AI 在数据索引与模型分发/部署方面展示了其独特的优势，特别是在处理海量数据扇出（ Fanout ）场景时，显著提升了系统的效率和成本效益。

2024-10-11 17:51:33 745

原创南科大分享｜大数据技术如何赋能大模型训练及开发

Scaling law 表明，大模型需要在互联网级别的海量数据上进行训练, 但现有的大模型训练方案基本上仍然采用过去小规模数据的简单训练范式，难以匹配现有需求。我们从底层训练框架出发，重新设计了数据在训练过程中的生命周期, 使数据开发与模型训练解耦, 改善了大模型训练中大规模数据处理及治理的难题。从而将数据和算法在大模型开发周期中可以在同等层次上对待，还为大模型训练提供了更加灵活和智能的解决方案。这项研究为未来的大模型训练开辟了新的方向，不仅在理论上具有重要意义，也在实际应用中展现出巨大的潜力。

2024-10-11 17:02:09 1031

原创选择Alluxio来解决AI模型训练场景数据访问的五大理由

在AI模型训练尤其是大模型领域，存储系统的性能和稳定性直接决定了模型训练、推理、部署任务的效率和成本。随着全球AI行业的爆发带来的数据规模的快速增长，如何高效管理和利用这些数据成为AI模型训练中的一大挑战。

2024-09-20 18:25:13 947 1

原创 Alluxio Enterprise AI on K8s FIO 测试教程

fio是业内常用的磁盘与文件系统性能测试工具，下面内容将通过文字方式介绍Alluxio on k8s 进行fio测试的教程。

2024-09-20 18:04:33 1561

原创 Alluxio EnterpriseAI on K8s 部署教程

本文将通过视频和文字的方式，介绍如何通过Operator（Kubernetes管理应用程序的扩展）在 Kubernetes 上安装 Alluxio

2024-09-20 18:01:34 1754

原创对比速览 | Alluxio 企业版 v.s. 社区版

当前诸多企业面临着日益增长的数据量和复杂的数据管理挑战。特别是在模型训练的过程中，诸如GPU短缺、GPU利用率不高等问题已经成为许多企业在技术实施中面临的挑战。同时，大数据分析中跨云数据访问速度慢、成本高等问题也给企业带来了痛点。为了应对这些挑战，企业们积极寻求更便捷的数据管理和模型训练加速解决方案。Alluxio企业版提供了针对商业级需求的增强功能和支持。企业版不仅仅是Alluxio社区版的延伸，更是为了满足企业级应用中的稳定性、安全性和性能需求而设计的高阶解决方案。

2024-08-06 14:47:23 984

原创案例分享｜Alluxio在自动驾驶数据闭环中的应用

分享嘉宾：孙涛 - 中汽创智智驾工具链数据平台开发专家。分享提纲：1. 自动驾驶数据闭环介绍；2. Alluxio 在采集标注训练以及合规平台的一些应用场景；3. 目前存在的问题以及未来规划。

2024-08-02 17:53:47 1523

原创 XSKY对象存储深度结合Alluxio分布式缓存系统，GPU利用率提高至90%以上

近日，Alluxio分布式缓存系统完成了与XSKY星辰天合的 XEOS V6.4 对象存储的兼容性测试，旨在解决数据管理和加速方面的挑战。双方进行了深度的产品对接和联合开发，将 Alluxio 分布式缓存系统与 XEOS 对象存储的众多应用特性进行结合，推出一体化存储联合方案，以更好地支持 AI 场景下的数据管理和加速需求。近年来，随着 AI、大数据的逐渐推广和完善，特别是 AI 大模型（LLM、多模态、文生视频等）的广泛推广，超大数据量的存储以及访问已经成为了企业面临的一个重大的技术以及成本挑战。

2024-06-05 10:55:06 1337 1

原创案例分享｜Alluxio在自动驾驶模型训练中的应用与部署

杨林三-辉羲智能辉羲智能致力打造创新车载智能计算平台，提供高阶智能驾驶芯片、易用开放工具链及全栈自动驾驶解决方案，运用独创性“数据闭环定义芯片”方法学，助力车企构建低成本、大规模和自动化迭代能力，实现优质高效的自动驾驶量产交付，引领数据驱动时代的高阶智慧出行。创业公司中，如何使用Alluxio？从0-1使用 Alluxio 的过程（调研-部署-上生产）。实践经验分享。《 Alluxio 在自动驾驶模型训练中的应用与部署》下文为完整文字版分享内容。

2024-05-21 18:44:16 1250

原创 OPPO案例 | Alluxio在Data&AI湖仓一体的实践

在OPPO的实际应用中，我们将自研的Shuttle与Alluxio完美结合，使得整个Shuttle Service的性能得到显著提升，基本上实现了性能翻倍的效果。通过这一优化，我们成功降低了约一半的系统压力，同时吞吐量也直接翻倍。这样的结合不仅解决了性能问题，更为OPPO的服务体系注入了新的活力。完整文字版分享内容↓《Alluxio在Data&AI湖仓一体的实践》上图是OPPO目前的整体架构，主要分为两部分：1、Data2、AIOPPO在数据领域主要专注于结构化数据，即通常使用SQL处理的数据。

2024-03-22 13:38:47 1239

原创数据本地性如何助力企业在云上实现高效机器学习

对于模型训练而言，为提高模型准确性，通常需要进行多个epoch训练，因此数据读取所花费的时间可能比实际用于模型训练计算所花费的时间要长得多。通过就近存放并访问所需数据，减少了数据移动上的耗时，可将更多的时间用于高效计算。√ 新的解决方案——Alluxio DORA，采用分布式缓存架构，利用去中心化的一致性哈希以及软亲和调度算法来优化数据存放，既能保持高可用性也能提高本地性；√ 包括直接访问远端数据、拷贝数据和使用本地缓存层在内的现有解决方案各有利弊，但都难以将提供的数据本地性提升到更大或者超大的规模；

2024-03-22 11:03:39 1082

原创超算互联网统一存储平台技术研究

还有一些复杂的应用场景，比如海洋气象遥感这些领域，他们本身的操作流程就比较复杂，可能数据存储在一个地方，需要流转到另一个地方进行数据的预处理，模拟仿真、模型训练等操作，但是这些操作又可能要在不同的平台上进行，甚至要在不同的区域进行，如果没有一个一体化的服务平台，很难行得通，很难精通所有平台的使用方式，这些问题和挑战也是我们打造超算互联网核心要解决的。再就是数据的预取，也就是数据缓存机制的优化，包括预取的设计、关联规则，还有比较重点的，我们想做分层存储，这是后续要做的事情。

2024-03-08 16:59:52 1291

原创实录分享 | 央企大数据平台架构发展趋势与应用场景的介绍

现在我们上边的部署计算节点是358个，3PB的存储，56000多核的一个VCPU，目前跑在上面的智能应用大概4600+，上云的系统41个，以及我们现在连接的设备数是1664万，大量的设备已经把数据传输到云上。这个方案我认为是现在我们在央企里边比较核心的一套体系，能让全集团所有我们认为重要的数字化资源能够真正的统一集中，它的统一集中并不是要掌管它、监控它，而是让存储、计算、数据、应用、技术能力，能够在全集团范围内最大化流动起来，让大家最大化使用这些资源，这才是我们的最终目标。

2024-01-12 14:58:44 1561

原创 Alluxio AI 全新产品发布：无缝对接低成本对象存储 AI 训练解决方案

（2023 年 10 月 19 日，北京）Alluxio 作为一家承载各类数据驱动型工作负载的数据平台公司，现推出全新的 Alluxio Enterprise AI 高性能数据平台, 旨在满足人工智能 (AI) 和机器学习 (ML) 负载对于企业数据基础设施不断增长的需求。Alluxio Enterprise AI 平台可综合优化企业 AI 和分析基础设施的性能、数据可访问性、可扩展性和成本效益，助力生成式 AI、计算机视觉、自然语言处理、大语言模型和高性能数据分析等下一代数据密集型应用的发展。

2023-10-20 09:57:08 332

原创实录分享 | Alluxio 在网易大数据的应用与优化

在 Impala 的文件句柄缓存机制中，Impala 读取文件时，会首先判断是否缓存了文件句柄，如果没有就调用 Open 方法向 Master 发起请求以获取文件的元数据信息（如文件的长度，文件块的位置信息等），此后会向 Worker 发起读取请求并调用 read 方法读取数据块，此后会调用 unbuffer 方法并缓存文件句柄，最后会返回读取的数据；网易利用了 UFS 对象存储的批量删除接口，通过合并删除请求批量删除对象，此时整体的 rpc 调用会减少很多，以此来优化 Rename 的整体性能。

2023-10-16 12:18:32 685

原创实录分享 | Alluxio在AI/ML场景下的应用

其次就是我们不希望大家专门买一套硬件解决方案，在加入Alluxio之前，我所在的实验室是一直在做HPC的，HPC有一个很大的问题就是他的成本非常高，买1套HPC通常可以买10套Hadoop硬件，或者是云上的存储硬件，所以如果需要购买一套专有的硬件搭建AI Infra 架构，是事倍功半的，成本非常昂贵，看到这个场景后，我们提出还是希望可以直接在数据湖上构建AI和ML的数据通路，可以不更改存储系统，同时可以利用已有的，不需要额外购买IDMA这种硬件，就可以支撑训练的需求，这是我们的愿景。

2023-09-01 12:00:04 832

原创突破大模型 | Alluxio助力AI大模型训练-成功案例（一）

其实从 2022 年的下半年我们就开始调研 Alluxio 了，但是因为种种原因，中途搁置了一段时间，导致 Alluxio 推迟到今年才上线。在我们调研与上线的过程中，Alluxio 社区是我们最强大的外援，为我们提供了海量的帮助。本次我们在算法场景对 Alluxio 小试牛刀，取得的结果令人十分惊喜。从性能上讲，在算法模型上线的场景，我们将 UnionStore 用 Alluxio 替换后，最高能够获得数十倍的性能提升；

2023-08-15 13:25:18 1270

原创实录分享 | 使用Prometheus和Grafana监控Alluxio运行状况

在Grafana中，我们可以使用Prometheus采集的数据，用PromQL筛选出所需的数据，在Web UI界面可绘制种类丰富的图像，如折线图、柱状图、热图等。Prometheus 是一个开源的完整监控解决方案，其对传统监控系统的测试和告警模型进行了彻底的颠覆，形成了基于中央化的规则计算、统一分析和告警新模型。Prometheus 是一个开源的完整监控解决方案，其对传统监控系统的测试和告警模型进行了彻底颠覆，形成了基于中央化的规则计算、统一分析和告警新模型。可以在任何环境搭建我们的监控系统。

2023-08-14 15:14:06 996

原创实录分享 | Alluxio Operator一体化部署方案

当我们创建了一个 Presto 资源后，自定义的controller仍然要监控资源的状态，如果资源的状态被更新了（比如Presto的镜像被更新了），那么它也需要根据更新之后的状态和当前状态进行对比，之后controller 要去做的事情就是自动更新它所创建的相关资源，而我们则无须关心要更新哪些内置的deployment和service。比如，基于前面Level 4所收集的指标进行分析后，发现应用在白天的请求较多，而晚上较少，则Operator可以自动根据请求的数目去做扩缩容，自动地去修改pod的副本数。

2023-06-25 17:27:58 799 1

空空如也

如何通俗地理解「分布式系统」，它解决了哪些问题，有什么优缺点？

hadoop和大数据、spark的关系该怎么理解？

块存储、文件存储、对象存储这三者的本质差别是什么？