MinIO分布式存储-CSDN博客

原创全球内容领导者如何重建超大规模可观察性架构

全球最大的内容平台之一面临着严重的扩展问题。他们每天要获取数 TB 的可观测性数据，而且每季度数据量还在以数 PB 的速度增长。他们采用旧时代设计的基础设施难以跟上时代的步伐。性能落后，成本飙升，扩展也增加了复杂性

2025-06-11 11:26:31 632

原创专为工厂车间打造的人工智能质量控制

在世界各地的工厂车间，视觉检测仍然是制造流程中最耗费人力且最容易出错的环节之一。一家全球消费品制造商正在利用边缘人工智能重新定义这一挑战。通过用实时、无人监督的异常检测取代人工抽检，该公司有望将与检测相关的劳动力占工厂员工总数的比例从 40% 降至 4%。

2025-06-11 11:25:48 609

原创 AIStor 增加了对 S3 Express API 的支持

2023 年底，亚马逊推出S3 Express 单区存储(S3 Express One Zone) ，重新定义了人们对公有云中高性能对象存储的期望。几乎所有主流 AI 构建者和数据湖实践者都在采用这个速度更快的 API。

2025-06-11 11:25:04 717

原创 On-Prem Iceberg 案例：成本、控制和性能

随着企业数据计划的扩展，许多企业发现云湖屋并不总是性能、合规性或成本的最佳选择。而这正是本地部署 Iceberg 架构的优势所在。

2025-06-11 11:24:18 572

原创采用模型上下文协议和 AIStor 的代理人工智能

与众多竞争对手相比，Anthropic 的模型上下文协议 (MCP) 代表了 Agentic AI 工具的独特方法。MCP 并非构建框架（调用代码的软件）或库（代码可调用的软件），而是专注于代理不同部分之间相互通信所需的协议

2025-06-11 11:23:28 488

摘要对象存储作为云原生时代的核心存储技术，凭借其元数据驱动、无限扩展和API访问的特性，正成为现代企业数据战略的关键选择。本文系统阐述了对象存储的本质特征：它将数据存储为包含元数据和唯一ID的对象，特别适合处理80%的非结构化数据。通过澄清"性能慢"、"仅适合归档"等常见误区，文章比较了对象存储与文件/块存储在成本、规模和适用场景上的差异。重点指出，真正的云原生对象存储必须满足Kubernetes编排、多租户、轻量级等六大标准，而软件定义是实现这些目标的基础。企业评

2025-06-11 11:21:23 671

原创 AIStor 的模型上下文协议 (MCP) 服务器：工作原理

本文介绍了MinIO AIStor模型上下文协议(MCP)服务器的工作原理和开发细节。MCP作为大型语言模型(LLM)与资源间的中介，将自然语言请求转换为JSON-RPC调用并执行相应操作。服务器采用Go语言开发，利用MinIO SDK实现25+种存储操作功能，按权限分组控制。通过Docker容器分发，支持多种MCP客户端。文章还详细阐述了安全机制，强调最小权限原则。MCP服务器的创新在于用自然语言交互替代传统命令行，使对象存储更易用，同时保持企业级安全性。这项技术正重塑人机交互方式，展现AI时代存储管理的

2025-06-11 11:14:26 720

原创使用 MinIO 的 AIStor 构建实时数据管道

这篇文章介绍了MinIO的AIStor如何解决企业在云端和本地环境中实现实时数据处理的挑战。文章通过一个实际的Kafka流式传输管道案例，展示了AIStor如何统一支持传统分析和AI/ML工作负载。该方案无需复杂基础设施即可处理数千万Kafka事件，既能保存原始数据用于合规性需求，又能生成预聚合数据集用于业务分析。核心组件包括数据生成器、Kafka集成以及基于Java的数据处理流程，其中AIStor提供了灵活的对象存储方案。文章还详细说明了系统配置和关键代码实现，强调了该架构在不同部署环境中的一致性和可扩展

2025-06-11 11:13:11 803

原创发现、交易、管理？解读冰山目录 API 标准的真正范围。

摘要： Apache Iceberg Catalog API标准聚焦数据湖表格式的核心功能，通过规范表发现和ACID事务机制（如原子提交操作）确保数据互操作性，同时将RBAC、审计等治理功能留给具体目录实现。该标准简化了引擎对接，降低了供应商锁定风险，但高性能数据湖架构仍需结合MinIO AIStor等优化存储层。开发者需注意：Iceberg提供基础框架，而全面治理需依赖专业目录服务或外部工具扩展。这种分层设计平衡了标准化与灵活性，为可扩展数据工程奠定基础。（149字）

2025-06-11 11:12:11 563

原创 Iceberg 的 Catalog API：Iceberg 表背后的原子指针管理器

本文探讨了Apache Iceberg Catalog API的核心功能及其在数据管理中的关键作用。Iceberg Catalog API作为元数据指针的原子管理接口，实现了对象存储中海量结构化数据的可靠访问，支持ACID事务、模式演化和时间旅行等功能。文章指出，目录的核心任务是管理指向表元数据的指针，而非存储数据本身，这使得数据发现更加高效。规范中的核心操作包括表的创建、更新、删除、注册和重命名，这些操作直接改变元数据指针。此外，文章区分了规范的便利性API（如命名空间管理和扫描规划）与常见的扩展功能（如

2025-06-11 11:10:57 786

原创 AIStor 的模型上下文协议 (MCP) 服务器：管理功能

本文介绍了如何通过MinIO AIStor的模型上下文协议（MCP）服务器结合大语言模型（LLM）来增强集群管理功能。MCP服务器能够将复杂的命令行输出转化为易理解的摘要、健康状态报告和数据可视化图表，显著提升了管理员和普通用户的操作效率。例如，用户可以通过自然语言查询获取集群状态、数据分布和对象版本控制信息，LLM还能自动生成表格和饼图等可视化内容。此外，文章强调了MCP服务器的多层级安全设计，包括默认只读模式和管理权限控制，确保功能与安全性兼顾。这种结合LLM的智能管理方式不仅简化了操作流程，还为集群管

2025-06-11 11:09:40 847

原创为 MinIO AIStor 引入模型上下文协议（MCP）服务器

Anthropic 最近宣布的模型上下文协议（MCP）将改变我们与技术交互的方式。它允许自然语言通信替换许多任务的复杂命令行语法。不仅如此，语言模型还可以总结传统工具的丰富输出，并以人类可读的形式呈现关键信息。MinIO 是世界领先的对象存储提供商，拥有丰富的存储创新历史，我们一直在突破存储和 AI 交叉领域的界限。今天，我们很高兴推出另一项行业首创的创新产品 — 用于企业对象存储的模型上下文协议（MCP）服务器。

2025-03-31 13:39:00 839

原创利用 Materialize 和 MinIO AIStor 构建高性能内部数据管道

Materialize 是一个专为实时数据集成和转换而设计的软件平台。它允许您仅使用 SQL 创建业务任何方面的最新视图。Materialize 构建在 Timely Dataflow（一种分布式数据并行计算引擎）之上，专注于在新数据到达时对查询进行高吞吐量、增量更新。对于性能至关重要的这些工作负载，在本地运行是一种经济高效且性能高的选择。Materialize 的主要存储是对象存储。

2025-03-31 13:38:13 1436

原创针对对象存储的 Deepseek 式强化学习

tl;dr：我们训练一个小LLM玩家，让他们擅长使用强化学习（类似于导致 Deepseek R1 的过程）进行推理，所有这些都针对本地模型存储库 AIStor AIHub。

2025-03-21 09:51:09 664

原创英伟达™（NVIDIA®）GPUDirect 存储和 MinIO AIStor：释放 GPU 驱动

NVIDIA® GPUDirect® 是一套技术，旨在优化 GPU 和其他系统组件之间的数据传输，通过最大限度地减少 CPU 参与和减少延迟来提高性能。GPUDirect 系列包括几项关键技术：GPUDirect RDMA（远程直接内存访问）：支持跨网络在 GPU 和网络接口卡（NIC）之间直接访问内存，从而促进分布式计算环境中 GPU 之间的高速数据传输。

2025-03-20 13:30:48 1730

原创 MinIO AIStor：利用英伟达™（NVIDIA®）BlueField-3 DPU 率先开发

Arm 架构正在彻底改变超大规模云，这得益于其总拥有成本（TCO）优势（更低的功耗和更低的冷却要求），从而实现了可持续的大规模高性能计算。AWS、Azure 和 GCP 等行业领导者正在采用 Arm 来驱动其用于 AI 训练的最新计算实例，利用其效率来满足数据密集型工作负载的需求。这些同样引人注目的因素（成本节约、能源效率和简化的基础设施）现在有望推动企业客户在本地采用 Arm，构建可与云功能相媲美的私有 AI 数据基础设施。在这个不断变化的环境中，MinIO 是先驱，从第一天起就设计了 Arm 原生对

2025-03-20 13:30:03 1096

原创 AIStor 与 NVIDIA NIM™ 集成

基于 AIStor 强大的 AI 功能，MinIO 的 PromptObject 使用户能够通过自然语言查询与他们的数据进行交互，如此处所述。PromptObject 允许用户使用自然语言询问有关其数据内容的问题并提取信息，从而改变了用户与存储对象的交互方式，无需编写复杂的查询或代码。今天，我们通过添加对 NVIDIA NHIM™ 的支持来扩展这些功能，为用户提供强大的 GPU 加速选项，以便直接从全局控制台进行 AI 模型部署和管理。

2025-03-20 13:29:21 913

原创借助 AIStor 和英伟达™（NVIDIA®）GPU，企业人工智能基础架构变得简单易行

寻求利用 AI 功能的现代企业通常面临一个重大障碍：在其 Kubernetes 环境中复杂地部署和管理 GPU 基础设施。MinIO 的 AIStor 通过集成 NVIDIA GPU Operator 来正面应对这一挑战，彻底改变了组织为 AI 工作负载部署和管理 GPU 资源的方式。通过自动化 GPU 设置、驱动程序管理和资源优化，这种集成将曾经复杂的多步骤流程转变为只需单个命令即可实现的简化部署。

2025-03-20 13:28:27 1068

原创介绍 MinLZ 压缩算法

存在不同类型的压缩算法和非常好的实现。在 MinIO，我们已经使用了 Snappy 的增强版本，它一直为我们服务良好。但随着时间的推移，我们发现了一些可能的改进，可以更好地对压缩数据进行编码

2025-03-20 13:27:19 1053

原创 MLflow 模型注册表和 MinIO

已注册的模型是生产环境的候选项。您应该在实验中注册性能最佳的模型。注册模型后，您可以添加元数据，例如标签和描述。也可以在 Registry 中对模型进行版本控制;每个版本都有自己的描述和标签。在旧版本的 MLflow 中，可以指定模型的阶段以跟踪其状态。允许的阶段包括 None、Stage、Production 和 Archive。在本文中，我将展示如何使用最新版本的 MLflow 注册模型，在撰写本文时为 2.20.3。本文中显示的所有代码都可以在这里找到。

2025-03-20 13:25:16 1127

原创 Apache XTable：在数据湖仓一体中推进数据互作性

Apache XTable 是一个开源元数据转换器，可简化开放表格式（Apache Iceberg、Apache Hudi 和 Delta Lake）之间的互作性。XTable 允许您跨多种表类型进行读取和写入，而不是复制数据或被锁定为一种格式。它轻量级、高效，非常适合格式灵活性很重要的灵活数据架构。

2025-03-07 15:54:18 884

原创云计算的真实成本：一家网络安全公司如何利用 MinIO AIStor 找到更好的替代方案

在 SaaS 公司中并不少见的故事中，随着其日志数据扩展到数 EB，云原生网络安全组织面临着大幅上升的云成本。撇开存储成本不谈，仅对这些数据进行作的成本就变成了天文数字。该组织同时受到来自两方面的打击，因为存储成本只是问题的一部分：他们的云存储提供商 Amazon 的 S3 根本没有处理他们所需的日志作所需的性能来处理如此大量的数据。这家网络安全公司将继续在 AWS 上销售其托管服务，但它必须将其内部工作负载从公有云中移出。

2025-03-07 15:53:47 1239

原创使用 AIStor、MLflow 和 KServe 将模型部署到 Kubernetes

如果您已经走到了这一步，那么您已经端到端地使用了 MLflow。在本文中，我们创建了一个模型，在训练后跟踪其指标，记录模型，并使用我们从头开始安装的 KServe 将其部署到本地 Kubernetes 集群。如果您遵循 MLflow 和 KServe 的在线文档，则会出现一些问题，因此请使用本指南作为起点。

2025-03-07 15:53:05 1547

原创利用 AMD + MinIO 释放 AI/ML 性能

MinIO 的高性能对象存储与尖端的 AMD 处理器和加速器相结合，改变了 AI/ML 工作负载的游戏规则。

2025-02-28 10:33:24 657

原创为 AIStor 部署选择最佳硬件

从一开始，AIStor 就被设计为在许多不同类型的硬件上高效运行。我们建议我们的用户和客户在纯 JBOD 模式下使用带有磁盘的商用硬件，以确保底层基础设施尽可能简单和高性能。AIStor 是高性能和可扩展性的完美结合，这使得每个数据密集型工作负载都触手可及。

2025-02-21 10:19:02 804

原创开放表格式和对象存储架构指南

开放表格式是一种标准化的开源框架，旨在高效管理大规模分析数据集。它作为数据文件之上的元数据层运行，促进跨各种处理引擎的无缝数据管理和访问。

2025-02-20 16:12:24 973

原创使用 AIStor 和 OpenSearch 增强搜索功能

这篇文章于 2025 年 1 月 16 日首次出现在 The New Stack 上。通常，在了解一项受到大量炒作的新技术的合法性时，研究现有的核心能力和历史是有帮助的。如果所讨论的新技术不是基于现有或即将到来的功能，我们可以将其贴上“炒作”的标签并继续前进。历史可以帮助我们应用的另一个试金石只需要常识。新技术是否符合现有趋势？这是朝着进步方向迈出的下一个合乎逻辑的步骤吗？它是否解决了以前难以解决或无法解决的问题？

2025-02-20 16:11:44 974

原创了解 Agentic AI 的架构师指南

这篇文章于 2025 年 1 月 16 日首次出现在 The New Stack 上。通常，在了解一项受到大量炒作的新技术的合法性时，研究现有的核心能力和历史是有帮助的。如果所讨论的新技术不是基于现有或即将到来的功能，我们可以将其贴上“炒作”的标签并继续前进。历史可以帮助我们应用的另一个试金石只需要常识。新技术是否符合现有趋势？这是朝着进步方向迈出的下一个合乎逻辑的步骤吗？它是否解决了以前难以解决或无法解决的问题？

2025-02-10 16:59:30 972

原创通过主权私有云缓解地缘政治问题

在任何词典中查找 “主权” 的定义，你都会得到 “至高无上的权力或权威” 的定义。因此，“主权云”的逻辑定义是，由欧盟或政府等单个管理实体控制物理层（数据中心和基础设施）、代码层（质量标准、源代码管理和设计）和数据层（所有权、流程和使用）的云。一个常见的误解是，主权云是所有物理资产都位于某个管理实体边界内的云，数据层内的数字资产永远不允许流向该边界之外的基础设施。虽然这是主权云的一项重要要求，但并不是唯一的要求。云真正主权的另一个关键标准是，它必须只由一个政府支持。要了解为什么这样做是必要的，请考虑下图。

2025-02-10 16:58:37 758

原创为什么开放式湖仓一体方法很重要：dbt 收购 SDF Labs 的经验教训

dbt （Data Build Tool）是一个开源 SQL 转换框架，已成为许多现代数据团队的基石，提供灵活性和可访问性。最近，dbt 通过收购 SDF Labs 增强了其产品组合。SDF Labs 是一家总部位于西雅图的初创公司，由 Meta 和 Microsoft 的前工程师于 2022 年创立。该公司开发了一个开发人员平台，旨在增强跨组织的 SQL 理解，使数据团队能够充分利用他们的数据。他们的平台提供的功能包括简化的查询编写和管理、主动质量和治理报告，以及将业务逻辑表示为代码。

2025-02-10 16:57:43 1014

原创用于本地开发的 RedHat OpenShift 上的 AIStor

AIStor 一直是高性能和可互作的云原生对象存储的先驱，这种存储具有多功能性和敏捷性。AIStor 可在无数平台上运行，例如 Kubernetes、AWS、GCP、Azure、裸机 Linux 和许多其他环境。最近，业内出现了一种趋势，即让数据“更贴近”家庭。结果是，组织现在希望将其数据保存在他们拥有的服务器上、自己的数据中心或主机托管提供商处。主要原因是云的成本失控，再加上当前的经济环境。对于大多数应用程序，只要充分了解工作负载，就有可能在本地实现与云相同级别的可扩展性和性能，而成本只是其中的一小部分。

2025-02-10 16:56:50 1065

原创我们现在都是数据运维工程师了吗？如果是，我们如何才能成为优秀的数据工程师？

DataOps 力求将数据视为最终且有价值的产品。数据推动了从 AI 到自动化的所有业务创新，DataOps 最终在数据应有的位置寻求中心数据。这是通过将软件工程原则应用于数据的开发、交付和管理来实现的。例如，通过利用自动化性能测试和基础设施即代码（IaC），组织可以进一步优化数据作，以最小的延迟满足业务需求。

2025-02-10 16:56:18 864

原创 Iceberg and AIStor 的Lakehouse Architecture 权威指南

Apache Iceberg 似乎已经掀起了一场（暴风雪）数据世界。它最初由 Ryan Blue（也是 Tabular 的成员，现在是 Databricks 的名人）在 Netflix 孵化，最终被传输到它目前所在的 Apache 软件基金会。从本质上讲，它是一种适用于大规模数据集（想想数百 TB 到数百 PB）的开放表格式。随着 AI 吞噬大量数据用于创建、调整和实时推理，自最初开发以来，对这项技术的需求只增不减。Iceberg 是一种多引擎兼容格式。

2025-02-10 16:55:43 1282

原创使用亚马逊针对 PyTorch 和 MinIO 的 S3 连接器进行模型检查点处理

2023 年 11 月，Amazon 宣布推出适用于 PyTorch 的 S3 连接器。适用于 PyTorch 的 Amazon S3 连接器提供了专为 S3 对象存储构建的 PyTorch 数据集基元（数据集和数据加载器）的实现。它支持用于随机数据访问模式的地图样式数据集和用于流式处理顺序数据访问模式的可迭代样式数据集。适用于 PyTorch 的 S3 连接器还包括一个检查点接口，用于将检查点直接保存和加载到 S3 存储桶，而无需先保存到本地存储。

2025-02-10 16:55:05 1134

原创关于 ROSA 的 AIStor

AIStor 是高性能、可互操作的云原生对象存储的先驱，具有多功能性和敏捷性。AIStor 可在无数平台上运行，例如 Kubernetes、AWS、GCP、Azure、裸机 Linux 和许多其他环境。最近，业内出现了一种趋势，即让数据“更贴近”家庭。结果是，组织现在希望将其数据保存在他们拥有的服务器上、自己的数据中心或主机托管提供商处。主要原因是云的成本失控，再加上当前的经济环境。对于大多数应用程序，只要充分了解工作负载，就有可能在本地实现与云相同级别的可扩展性和性能，而成本只是其中的一小部分。

2025-01-17 13:11:52 496

原创 AWS re:Invent 的创新技术

本月早些时候，Amazon 于 12 月 1 日至 5 日在内华达州拉斯维加斯举行了为期 5 天的 re：Invent 大会。如果您从未参加过 re：Invent 会议，那么最能描述它的词是“巨大”——不仅从与会者人数（60,000 人）来看，还从涵盖的主题的广度来看。MinIO 展位有 60,000 名与会者，整整 5 天都非常繁忙。因此，即使我亲自到场，我也没有机会沉浸在来自 Amazon 的有关他们来年云计算计划的所有数据中。所以，我不得不等到假期才去做大多数人认为相当书的事情。

2025-01-03 13:59:50 1509

原创博客年度回顾： 2024 年 Top 10

在这种规模下，会出现大多数存储供应商永远不会看到的问题，因为他们无法以这种规模运行，因此我们创建了业界功能最齐全的对象存储。在第 10 位，AJ 研究了存储和检索大量小对象所固有的一些困难，并深入探讨了 MinIO 如何优化这些操作以及我们在 MinIO 客户端和服务器上处理 .tar 和 .zip 文件的新功能。本教程部署了一个内聚的系统，该系统允许跨存储在 MinIO 中的大型数据集进行分布式 SQL 查询，Trino 利用 Hive Metastore 中的元数据和 Redis 中的表架构。

2025-01-03 13:59:13 917

原创使用亚马逊针对 PyTorch 和 MinIO 的 S3 连接器实现可迭代式数据集

2023 年 11 月，Amazon 宣布推出适用于 PyTorch 的 S3 连接器。适用于 PyTorch 的 Amazon S3 连接器提供了专为 S3 对象存储构建的 PyTorch 数据集基元（数据集和数据加载器）的实现。它支持用于随机数据访问模式的地图样式数据集和用于流式处理顺序数据访问模式的可迭代样式数据集。在上一篇文章中，我介绍了适用于 Pytorch 的 S3 连接器，并详细描述了它打算解决的问题。我还介绍了过去即将弃用的库，以支持 S3 连接器。

2024-12-27 10:33:44 1145

原创 AIStor 更新和重启最佳做法

在现代世界中，保持系统运行不仅仅是赌注 - 它是没有商量余地的。当涉及到软件更新及其对您的系统意味着什么时 - 嗯，这要复杂得多。一方面，安全性是当今更新的主要驱动力，这也是没有商量余地的。需要尽快在所有系统中实施补丁，以保持最强的安全性。这同样适用于包含重要错误修复、性能改进和增强功能的软件更新。它们也应该及时实施，以利用内部的改进。但是停机时间呢？根据您的环境和操作流程，在应用安全补丁和软件更新时，可能会因服务重启而导致轻微的停机时间，并且可能会引入错误代码，从而导致严重停机，直到回滚或更新。

2024-12-27 10:33:06 943

原创解密亚马逊 S3 表：为什么 AIStor 使特殊桶变得没有必要？

S3 表引入了一种新型的 S3 存储桶，即表存储桶，专门针对基于 Apache Iceberg 的分析工作负载进行了优化。主要功能包括：更高的事务限制：与标准 S3 存储桶（3500 PUT/s 和 5500 GET/s）相比，表存储桶将请求限制提高到 35000 PUT/s 和 55000 GET/s。内置表维护：压缩、快照过期和未引用的文件删除是自动的。

2024-12-20 15:16:18 598

空空如也

空空如也