MinIO
文章平均质量分 85
MinIO分布式存储
MinIO是一款高性能分布式云存储。
它是开源的并且兼容S3协议。
适合于企业构建PB/EB级的私有云存储、对象存储、企业存储和分布式存储。
展开
-
人工智能数据栈互操作性架构师指南
最初发布于 New Stack。AI 的未来是开放的,无论您的堆栈中采用何种技术,互操作性都是您保持领先地位的门票。随着 AI 和机器学习在各行各业的扩展,数据架构师面临着一个关键挑战:确保在日益分散的专有生态系统中实现互操作性。现代 AI 数据堆栈必须灵活、经济高效且面向未来,同时避免可怕的供应商锁定,这可能会扼杀创新并增加您的预算。原创 2024-11-08 16:42:28 · 489 阅读 · 0 评论 -
先睹为快: MinIO 对象存储与人工智能调查
MinIO 最近对 656 名 IT 领导者进行了调查,这是 User Evidence 主要研究计划的一部分。结果非常有趣,突显了我们在企业中看到的巨大变化,无论是围绕向对象存储的转变,还是将对象存储用作组织 AI 计划的主要构建块的兴趣。我们将在这里总结其中一些关键点作为先睹为快,完整报告将在 12 月初的 Gartner IOCS 活动中及时发布。近 50% 的受访者在 IT 运营/基础设施领域工作,其次是应用程序和软件开发 (27%),其次是 IT 架构 (11%)。原创 2024-11-08 16:41:48 · 520 阅读 · 0 评论 -
使用亚马逊 S3 连接器为 PyTorch 和 MinIO 创建地图式数据集
2023 年 11 月,Amazon 宣布推出适用于 PyTorch 的 S3 连接器。适用于 PyTorch 的 Amazon S3 连接器提供了专为 S3 对象存储构建的 PyTorch 数据集基元(数据集和数据加载器)的实现。它支持用于随机数据访问模式的地图样式数据集和用于流式处理顺序数据访问模式的可迭代样式数据集。在这篇文章中,我将重点介绍地图样式的数据集。在以后的文章中,我将介绍可迭代样式的数据集。原创 2024-11-07 10:30:14 · 642 阅读 · 0 评论 -
实现可扩展人工智能的便捷之路:英特尔 Tiber 开发者云 + MinIO 对象存储
在本文中,我展示了如何设置英特尔 Tiber Developer Cloud 进行机器学习实验。这需要创建一个帐户、设置计算实例、创建 MinIO 存储桶和设置 SSH 密钥。创建资源后,我演示了如何编写一些函数来上传和检索数据。我还讨论了可以放入内存的小型数据集和无法放入内存的大型数据集的数据加载注意事项。使用 Intel 的 Gaudi 加速器非常简单,开发人员将识别 PyTorch 中 hpu 包的接口。我展示了检测 Gaudi 并将张量移动到它的基本代码。原创 2024-10-25 15:47:23 · 832 阅读 · 0 评论 -
复制、数据整合和数据迁移
Parsec Labs 是一家工程师公司。大多数人都设计了存储系统,负责备份和复制,或者从事网络构建交换机的工作。其 Unified Data Mobility and Protection Appliance 成立于 2013 年,为大规模迁移、复制和备份数据提供了最直接的工具。原创 2024-10-25 15:46:50 · 856 阅读 · 0 评论 -
使用 Kafka 和 MinIO 实现人工智能数据工作流
MinIO Enterprise Object Store 是用于创建和执行复杂数据工作流的基础组件。此事件驱动功能的核心是使用 Kafka 的 MinIO 存储桶通知。MinIO Enterprise Object Store 为所有 HTTP 请求(如 PUT、POST、COPY、DELETE、GET、HEAD 和 CompleteMultipartUpload)生成事件通知。您可以使用这些通知来触发相应的应用程序、脚本和 Lambda 函数,以便在对象上传触发事件通知后执行操作。原创 2024-10-25 15:46:15 · 794 阅读 · 0 评论 -
软件定义存储与设备的比较
软件定义的存储应在具有直接访问存储 (DAS) SSD 或磁盘驱动器或 JBoD(只是一堆磁盘)或 JBoF(只是一堆闪存)机架的多个客户服务器上运行,这些服务器是通过 SAS/NVMe 连接到服务器的。真正的软件定义存储不会在预先批准的狭隘设备列表上运行 - 那只是有选择的硬件定义存储。硬件定义存储通常由供应商人员部署,可以采用带有供应商外壳的机架式硬件形式,但其下方通常是两个或多个连接了 SAS 或 NVMe 存储架的服务器。事实是,如果他们的网站装饰着展示他们标志的盒子 - 它就不是一家软件公司。原创 2024-10-25 15:45:35 · 529 阅读 · 0 评论 -
在 AI/ML 工作负载中处理小对象
随着 MinIO 企业对象存储的使用成为云原生工作负载的主要存储,开发人员正在转向对象存储来满足越来越多的用例。这是现代对象存储属性的功能 - 性能、可扩展性、安全性、弹性和为 Kubernetes 量身定制的 RESTful API。特别是,MinIO Enterprise Object Store 是这些属性的体现,可以支持各种位置的各种任务 - 本地、边缘或私有云、公共云或混合云。早期的对象存储平台是为存档大型对象而设计和构建的,通常作为备份作业的目标。原创 2024-10-25 15:44:39 · 652 阅读 · 0 评论 -
从 Hadoop 迁移到数据 Lakehouse 的架构师指南
从 Hadoop 到数据湖仓一体架构的演变代表了数据基础架构的重大飞跃。虽然 Hadoop 曾经以其强大的批处理能力统治着大数据领域,但如今的组织正在寻求更敏捷、更具成本效益和现代化的解决方案。尤其是当他们越来越多地开始实施 AI 计划时。根本没有办法让 Hadoop 为 AI 服务。相反,越来越多的人正在迁移到数据湖仓一体架构,该架构结合了数据湖和数据仓库的优点,并提供处理现代数据工作负载所需的可扩展性、性能和实时功能。原创 2024-10-18 10:48:13 · 1055 阅读 · 0 评论 -
从 Hadoop 迁移到数据 Lakehouse 的架构师指南
从 Hadoop 到数据湖仓一体架构的演变代表了数据基础架构的重大飞跃。虽然 Hadoop 曾经以其强大的批处理能力统治着大数据领域,但如今的组织正在寻求更敏捷、更具成本效益和现代化的解决方案。尤其是当他们越来越多地开始实施 AI 计划时。根本没有办法让 Hadoop 为 AI 服务。相反,越来越多的人正在迁移到数据湖仓一体架构,该架构结合了数据湖和数据仓库的优点,并提供处理现代数据工作负载所需的可扩展性、性能和实时功能。原创 2024-10-18 10:47:22 · 914 阅读 · 0 评论 -
通过监控和警报驯服人工智能野兽
AI 是一头野兽。它需要不断地被喂养。它需要喂什么?当然是数据,而且是大量的。请记住,数据和 AI 是同一枚硬币的两面。人们经常忘记,最初构建 AI 模型的原因是因为它们被馈送到数百 PB 到 EB 的数据,当然,这些数据存储在 MinIO Enterprise Object Store 上,要使此类模型有效,需要数千次。但是,当管理如此大规模的数据时,不可能查看单个日志或节点来尝试理解它。您需要的是数据状态和整个集群基础架构的整体视图。原创 2024-10-18 10:46:45 · 573 阅读 · 0 评论 -
云作为一种运营模式--而非物理位置
与上述所有内容一样,几乎所有主要堆栈组件都存在于云专有和云原生选项中。就像上述所有内容一样,大多数其他云原生组件都可以从云市场轻松获得和安装。使用这些解决方案,您可以利用云提供商的即时硬件基础设施,而无需为云托管、托管或专有解决方案支付额外费用和税款。部署托管 SaaS 服务的云原生替代品的缺点通常被定义为部署和管理它们会增加时间和精力,这在某种程度上是正确的。随着 Kubernetes 运算符的引入,甚至这些优势也大大降低了。操作员可以完全自动化所有第 2 天操作,并且还可以跨云移植。原创 2024-10-11 13:45:51 · 851 阅读 · 0 评论 -
为人工智能的成功而招聘: 为什么你的第一位员工应该是数据工程师?
AI 计划通常是许多希望从数据中提取价值的组织的首要任务。但是,在聘请高技能的 AI/ML 工程师之前,需要建立管理和优化数据的关键基础。要想在 AI 中取得成功,首先聘请数据工程师至关重要,尤其是在对象存储和开放表格式方面经验丰富的工程师。原因如下。原创 2024-10-11 13:44:55 · 665 阅读 · 0 评论 -
开源催生开源:Tesla 如何加速 AI 发展
Tesla 的行动不仅促进了技术创新,还为其他公司开源自己的创新开创了先例,强化了开源产生更多开源的理念。开源技术的这种“网络效应”不仅使个人贡献者受益,而且使整个行业受益,因为新的参与者在现有创新的基础上进行构建和改进。特斯拉最新决定开源 TTPoE 进一步证明了这一原则。通过开放对其高级网络协议的访问,特斯拉鼓励人工智能和机器学习等领域的协作和更快的技术进步,这些领域受益于高度可扩展和高效的网络解决方案。在 MinIO,我们赞赏更广泛的行业向开源原则的转变,以此作为促进协作和加速创新的一种方式。原创 2024-10-11 13:43:16 · 224 阅读 · 0 评论 -
MinIO 学习订阅服务
订阅者还可以获得对 MinIO Enterprise 试用许可证的独家访问权限,从而了解我们的 Enterprise 产品独有的功能,包括缓存、目录、防火墙、可观察性和 KMS。MinIO 学习订阅包括一个引人入胜的点对点学习模型,学生可以在其中提出问题、获得答案,并查看其他人与课程内容一致的贡献。在 MinIO 学习订阅中,每个模块都以要学习的实用技能的定义开始,然后是一个或多个视频,由课程工程师、开发人员、解决方案架构师和管理员主讲,他们从必要的概念开始,然后迅速过渡到演示模式。原创 2024-10-11 13:42:37 · 363 阅读 · 0 评论 -
为您的人工智能数据提供类似 Git 的版本管理功能
您过去肯定有过版本控制代码。但是,您是否对数据进行了版本控制?您是否曾经想过与不同的团队协作处理大量数据,而无需提交大量数据?想象一下,使用类似 git 的命令来运行类似存储库的生态系统,在该生态系统中,您可以提交数据、创建分支、检查历史记录并在整个数据生命周期中跟踪更改,那将是多么酷。最终,这可确保大型组织中的团队以与协作处理代码相同的方式协作处理数据。Pachyderm 的支柱是其文件系统 PFS。它本质上构建在 Postgres 和 Object Store 之上,例如 MinIO。原创 2024-10-11 13:41:51 · 544 阅读 · 0 评论 -
我们试用了戴尔ObjectScale社区版,它并不完美
Dell 通常专注于文件管理器游戏,但他们涉足对象存储,并且有一个非常古老的产品 ECS。这是有道理的,它是磁带的升级版,不适合 HDFS 现代化或数据库工作负载等动态工作负载。不用说,AI 是不可能的。几年来,Dell 一直在调侃一种名为 ObjectScale 的新的“现代”产品。它的设计看起来像 MinIO,在 “即将推出 ”类别中花了几年时间。希望获得它的客户大多被告知要考虑 2025 年 - 但有一个社区版本可供下载。我们决定试一试。结果并不好。原创 2024-10-11 13:40:45 · 707 阅读 · 0 评论 -
从存储到人工智能洞察: 利用 MinIO 和 Polars 简化数据管道
将 MinIO 的高性能、可扩展企业对象存储的强大功能与 Polars(闪电般快速的 DataFrame 库)的快速内存数据处理功能相结合,可以显著提高数据管道的性能。在 AI 工作流中尤其如此,其中预处理大型数据集和执行特征选择是关键步骤。在这篇文章中,我们将探讨将 MinIO 与 Polars 集成如何简化您的数据工作流程并优化性能,尤其是对于复杂的分析工作负载。原创 2024-09-30 15:13:50 · 963 阅读 · 0 评论 -
现代数据堆栈中灵活性的力量:数据湖仓一体的优势
最近,我与我们一位出色的数据科学家 Archana Vaidyanathan 进行了交谈,她面临着一个非常普遍的挑战 — 计算成本飙升。在更大的数据集上运行大型查询后,费用远高于预期。自然而然地,她开始考虑更换计算服务的供应商。这让我开始思考现代数据堆栈的美妙之处,特别是数据湖仓一体(有时称为现代数据湖)架构的强大功能。湖仓一体的主要优势之一是它提供的灵活性。您不会被单一的计算供应商所束缚,当您的业务规模扩大而成本增加时,这种灵活性尤其有价值。借助数据湖仓一体,您可以轻松更换计算引擎,而无需更改整体架构。原创 2024-09-27 10:48:01 · 382 阅读 · 0 评论 -
从 Kafka 到 WarpStream: 用 MinIO 简化数据流
虽然 Apache Kafka 长期以来一直是流数据的行业标准,但新的创新替代方案正在重塑生态系统。其中之一是 WarpStream,它最近在 Confluent 的所有权下进入了新的篇章。此次收购进一步增强了 WarpStream 提供高性能、云原生数据流的能力,巩固了其作为 Kafka 的可扩展且经济高效的替代方案的地位。本教程将引导您开始使用 WarpStream 和 MinIO,并解释结合使用这些工具如何为您的流媒体架构提供简单性、灵活性和成本节约。原创 2024-09-27 10:47:12 · 1256 阅读 · 0 评论 -
大数据的挑战是小文件
小文件可能会给存储平台及其支持的应用程序带来大问题。在 Google 上搜索 “small files performance” 会产生 2M+ 的结果。这篇博文将更深入地研究小文件问题,深入研究其根源并总结解决方案。原创 2024-09-27 10:46:29 · 818 阅读 · 0 评论 -
为什么说 Confluent 收购 WarpStream 强化了对象存储作为数据流未来的地位?
Confluent 最近收购了 WarpStream,这对数据流和对象存储集成的未来具有重大影响。WarpStream 旨在直接在对象存储上运行。他们的 BYOC 模型使 WarpStream 能够利用云原生基础设施更有效地管理数据流工作负载,而无需传统 Apache Kafka 实施的典型可用区间网络成本和复杂性。此次收购的一个更微妙但更有影响力的方面是它如何加强对象存储在现代数据架构中日益增长的作用。原创 2024-09-27 10:45:33 · 497 阅读 · 0 评论 -
从 HDFS 迁移到 MinIO 企业对象存储
云原生、面向 Kubernetes 、基于微服务的架构推动了对 MinIO 等网络存储的需求。在云原生环境中,对象存储的优势很多 - 它允许独立于存储硬件对计算硬件进行弹性扩展。它使应用程序无状态,因为状态是通过网络存储的,并且通过降低操作复杂性,使应用程序能够实现比以往更高的规模。从网络对象存储系统写入和读取数据的最突出标准是 S3。MinIO 是一种完全符合 S3 标准、高性能、混合和多云就绪的对象存储解决方案。与将数据引入计算的传统方法相比,通过网络存储计算工作负载数据的模式是现代分解架构的缩影。原创 2024-09-19 10:36:49 · 1357 阅读 · 0 评论 -
引领潮流: MinIO 针对现代数据工作负载的条件写入功能
MinIO 的条件写入功能利用乐观并发控制,使用 If-Match 和 If-None-Match HTTP 标头进行与 S3 兼容的上传。如果在发生对象命名空间冲突时满足以下两个条件之一,则可能会发生写入操作:该对象存在,并且与 Client 端要写入的内容匹配。对象存在,但与客户端要写入的对象不匹配。If-Match 标头指示仅当正在写入的对象具有与现有对象匹配的 ETag/MD5 校验和时,PUT 才应成功。原创 2024-09-19 10:35:43 · 787 阅读 · 0 评论 -
停止向供应商提供您的数据
组织管理其数据基础设施的方式正在发生重大转变。越来越多的公司认识到存储和计算分离的优势,从而获得更好的性能、成本节约和可扩展性。这一趋势是由 AI 和 ML 工作负载日益复杂所推动的,这些工作负载需要灵活、高性能的系统。Databricks 首席执行官 Ali Ghodsi 是这一转变的杰出倡导者。在最近的一次演讲中,他强调了组织控制自己的数据的重要性。他鼓励公司停止依赖 Snowflake 和 Databricks 等供应商来管理他们的数据,而是使用基于对象存储构建的数据湖。好处?原创 2024-09-13 10:20:53 · 869 阅读 · 0 评论 -
对象存储上的数据库--新常态
当您考虑对象存储工作负载和存储类型时,数据库正日益成为核心工作负载。这些变化是由两股力量驱动的:高性能对象存储的可用性以及数据(特别是其相关元数据)的爆炸式增长。由于这两大力量,几乎每个主要数据库供应商现在都包含与 S3 兼容的终端节点。此外,对于许多组织和大多数工作负载来说,这成为默认架构,无论是在云中还是在本地。让我们简要地探讨一下这些概念。原创 2024-09-13 10:20:08 · 1015 阅读 · 0 评论 -
微链接: 利用 MinIO 实现计算和存储的还原
目前,他们有 75 TB(以每年 8 TB 的速度增长)的身份数据和来自世界各地的身份文件,这些数据和身份文件由小图像(低分辨率)和小文件组成,从而产生大量对象。为了改进这些结构化数据的存储并允许他们的产品利用它做更多的事情,Microblink 将构建一个现代数据湖(也称为数据湖仓一体)。然而,随着数据的增长,GCP 成为摩擦的根源,因为 GCP 云存储无法满足训练模型的需求。让我们来看看 Microblink 的数据基础设施多年来发生了怎样的变化,以处理需要不断增加的数据量的更苛刻的 AI 工作负载。原创 2024-09-04 14:51:17 · 848 阅读 · 0 评论 -
MinIO Packet Pushers 播客: 汤姆-里昂,《NFS 必死》。
Lyon 解释说,“在 NFS 时代,我们以艰难的方式发现了这一点,不得不进行硬挂载以获得一致性,并进行软挂载以获得可用性,”让您选择,“您是要惹恼这个组还是那个组?NFS 的问题在于,它需要“当出现问题时,有人照看事情”。“你需要一个用于可写存储的块协议,但一旦你冻结它,你就可以把它快照到你的对象存储系统,这样你就可以以相当简单的方式在全球范围内进行访问。因此,您可以将其与对象存储一起使用,但第一个可写层除外,在该层中,您要么需要本地可写存储,要么需要通过 NVME 通过 Fabric 或类似的东西。原创 2024-09-04 14:50:26 · 783 阅读 · 0 评论 -
开源还是封闭?人工智能的两难选择
要使模型完全开放,您需要训练数据、模型的源代码、训练期间使用的超参数,当然还需要训练后的模型本身,它由存储模型知识的数十亿(很快是数万亿)参数组成,也称为参数内存。与“开源”不同的术语,“开源”只应用于非 AI 软件,因为模型的源代码无助于确定模型的行为。如果你相信它们是真的,那么“所有 AI 都应该开源吗”这个问题的答案是否定的,因为它不会控制 AI,闭源也不会。如上所述,它有不同的口味和不同的风险。开源 AI 的支持者表示,开源促进了科学的共享,提供了透明度,并且是防止少数人垄断强大技术的一种手段。原创 2024-09-04 14:49:40 · 916 阅读 · 0 评论 -
东方银行--用 MinIO 和 Dremio 替代 Hadoop
此外,频繁的系统中断影响了银行满足严格的 SLA 和监管要求的能力。MinIO 专为分析和 AI 工作负载而设计,可提供可扩展且有弹性的数据基础,以满足银行激增的分析需求。对于旨在实现下一代数据驱动型洞察的组织来说,他们的成功凸显了 MinIO 的战略部署如何克服分析限制并释放新的潜力。通过将 MinIO 的快速对象存储与 Dremio 的加速查询引擎相结合,该银行建立了一流的分析堆栈。通过采用 MinIO 的云原生对象存储,该银行克服了传统基础设施的限制,从而提高了性能、确保了弹性并解锁了新的创新。原创 2024-09-04 14:47:38 · 484 阅读 · 0 评论 -
东方银行--用 MinIO 和 Dremio 替代 Hadoop
此外,频繁的系统中断影响了银行满足严格的 SLA 和监管要求的能力。MinIO 专为分析和 AI 工作负载而设计,可提供可扩展且有弹性的数据基础,以满足银行激增的分析需求。对于旨在实现下一代数据驱动型洞察的组织来说,他们的成功凸显了 MinIO 的战略部署如何克服分析限制并释放新的潜力。通过将 MinIO 的快速对象存储与 Dremio 的加速查询引擎相结合,该银行建立了一流的分析堆栈。通过采用 MinIO 的云原生对象存储,该银行克服了传统基础设施的限制,从而提高了性能、确保了弹性并解锁了新的创新。原创 2024-08-23 15:50:26 · 683 阅读 · 0 评论 -
PostgreSQL 与对象存储的结合: 在 MinIO 中访问外部数据
在现代数据环境中,有效存储和分析数据的能力至关重要。通过利用 MinIO 企业对象存储的这些功能,结合 PostgreSQL 的强大功能,您很快将能够构建一个现代、安全且高度可扩展的现代数据湖,以满足当今数据密集型环境的需求。此设置不仅可以增强您的分析能力,还可以为面向未来的数据策略奠定坚实的基础,确保您的基础架构能够适应不断变化的数据管理环境。将 PostgreSQL 与 MinIO 的企业对象存储 (EOS) 集成为构建现代数据湖奠定了坚实的基础,提供的功能可确保您的数据具有可扩展性、安全性和高性能。原创 2024-08-23 15:49:47 · 1072 阅读 · 0 评论 -
MinIO 企业级人工智能存储的数据和驱动器同等重要
例如,使用 14 个数据驱动器和 2 个奇偶校验驱动器,一个对象只能承受 2 个驱动器损失,如果丢失了第 3 个驱动器,则将丢失数据。例如,在 10 个驱动器的 MinIO 部署中,标准存储类设置为 6 个数据和 4 个奇偶校验驱动器,发送到此 MinIO 部署的所有 PutObject 请求都将以 6 个数据和 4 个奇偶校验配置存储对象。现在,您可以做出最适合您的用例的权衡,即您可以通过在 MinIO 部署中正确设置存储类使用值来优化以获得更好的冗余或更好的存储使用率。标准存储类是部署的默认存储类。原创 2024-08-23 15:48:51 · 382 阅读 · 0 评论 -
现代数据湖的基础: 对象存储如何锚定一切
在成功实施的现代数据湖中,对象存储的作用不应仅仅提供一个存储数据的位置。与 SAN 和 NAS、块存储和其他传统存储解决方案不同,云原生对象存储(如 MinIO 的企业对象存储)提供了无与伦比的可扩展性、持久性和简单性。通过将存储与现代数据湖中的计算分离,像 MinIO 这样的对象存储使您能够专注于数据本身,而不是您的基础设施。可塑性:无论您是处理 TB 级、PB 级还是 EB 级,唯一适合现代工作负载的对象存储类型是无需费力扩展的对象存储,使您能够专注于真正重要的事情 — 从数据中提取价值。原创 2024-08-12 17:35:46 · 278 阅读 · 0 评论 -
MinIO DataPod:百亿亿次级计算的参考架构
在可预见的未来,这将是人们看待企业的方式。公司的平均年增长率为42%,以数据为中心的公司的增长速度是这个数字的两倍,甚至更多。MinIO 的 DataPOD 基础设施蓝图使基础设施管理员能够简单明了地设置所需的商品现成硬件,这些硬件具有高度可扩展性、高性能、成本效益高的 S3 兼容 MinIO 企业对象存储,从而缩短了整体上市时间,并加快了企业环境中跨组织的 AI 计划的价值实现时间。用于对象存储的定制硬件设备通常通过昂贵的硬件和复杂的解决方案来弥补设计不佳的软件,从而导致高昂的总拥有成本 (TCO)。原创 2024-08-02 19:23:18 · 914 阅读 · 0 评论 -
细分 Insight 合作伙伴 2024 年企业技术状况报告
20%的人只会增长。通过为您的基础设施奠定坚实的基础,您可以自动执行最平凡的任务,并专注于将您的基础设施扩展到一个新的水平。多年来,我们一直在强调这一点 - 云运营模型是软件定义的、容器化的、编排的、API 驱动的(以 S3 为例)和面向微服务。我们可以说的是,凭借小于 100 MB 的二进制文件,MinIO 可以在任何地方运行,从火箭到汽车,显然还有数据中心。拥有从边缘到核心的一致数据平台的能力是吸引许多企业使用 MinIO 的原因,也是每个防御/情报组织似乎都在大规模运行 MinIO 的原因。原创 2024-08-02 19:21:06 · 713 阅读 · 0 评论 -
基于 Kafka 的经验:AutoMQ 和 MinIO 如何解决成本和弹性挑战
AutoMQ 是 Kafka 的一个开源分支,它以基于对象存储的共享存储架构取代了 Kafka 的存储层,同时 100% 复用了 Kafka 的计算层代码,保证了与 Kafka API 协议和生态系统的完全兼容性。得益于 MinIO 与 AWS S3 API 的完全兼容性,您甚至可以在私有数据中心部署 AutoMQ 集群,以获得与 Kafka API 完全兼容的流式处理系统,但提供更好的成本效益、极高的可扩展性和个位数毫秒的延迟。请注意,您只能在创建时复制密钥,因此请确保访问密钥的两个部分都是安全的。原创 2024-08-02 19:17:51 · 1119 阅读 · 0 评论 -
冰山的崛起:数据架构的转变
设备、不是为云构建的存储、性能不佳和操作复杂的存储在这种新的层次结构中没有立足之地。在人工智能不断增长的数据需求的推动下,随着数据湖的扩展,可扩展的存储变得至关重要。在众多令人钦佩的参赛者的竞争环境中,这种崛起类似于 Kubernetes 如何成为 Docker Swarm 的主导容器编排平台,突破了容器化应用程序的可能性界限。因此,我们可以预期数据存储上的计算选项将激增,从而削弱昂贵的专有计算解决方案的主导地位。在这种贪婪的数据吞噬过程中,将对高性能、可扩展和可用存储的需求。为什么这种转变对用户有好处。原创 2024-08-02 19:17:01 · 475 阅读 · 0 评论 -
使用 MinIO、Langchain 和 Ray Data 构建分布式嵌入式子系统
其他子系统是用于创建自定义语料库的数据管道,用于查询向量数据库以向用户查询添加更多上下文的检索器,最后是托管大型语言模型 (LLM) 的服务子系统,并将根据用户的查询和在向量数据库中找到的上下文生成答案。当你使用像 Ray Data 这样的库来分发数据处理时——在本例中是文本的分块和每个块的嵌入生成——你真正要做的就是编排简单的函数调用,这些函数调用在此过程中执行一项任务。但是,如果您必须为您的组织实施嵌入子系统,那么您如何为您的组织做出正确的设计决策,以及您如何应对不断增长的需求带来的复杂性?原创 2024-08-02 19:16:09 · 772 阅读 · 0 评论 -
目录的 “IT ”时刻及其对 MinIO、对象存储和人工智能的意义
通过实现此 API,不同的目录服务可以互操作,使用户能够利用各种目录实现的优势,而不会被锁定在单一供应商或技术中。我们对 GET 上的 MinIO 进行了基准测试,其速度为 325 GiB/s (349 GB/s),PUT 上的 MinIO 为 165 GiB/s (177 GB/s),仅具有 32 个现成的 NVMe SSD 节点。通过围绕通用标准进行调整,并建立在世界上性能最高的对象存储之上,可以部署在任何地方,现代数据湖社区可以克服碎片化,减少供应商锁定,并培养一个更具协作性和创新性的生态系统。原创 2024-07-26 11:11:33 · 398 阅读 · 0 评论