• 博客(117)
  • 收藏
  • 关注

原创 Clobotics 计算机视觉场景存储实践:多云架构、 POSIX 全兼容、低运维的统一存储

Clobotics 是一家将计算机视觉和机器学习技术应用于风电以及零售行业的企业。在风电行业,Clobotics 利用无人机对风力发电机叶片进行检查,显著降低了对人工作业的依赖。在零售领域,公司通过分析捕获的包装商品图像来提供基于实时数据的洞察,以增加销售额并减少运营成本。存储方面,Clobotics 原本直接使用云 SDK,而部分系统则使用了内部的封装器,没有形成统一的存储层,同时还面临多云架构、海量小文件、兼容性方面的挑战。

2024-08-30 14:14:26 572

原创 JuiceFS 在多云架构中加速大模型推理

下图是一个典型的大模型推理服务的架构。我们可以观察到几个关键特点。首先,架构跨越多个云服务或多个数据中心。目前在大模型领域, GPU 资源紧张,多数厂商或公司倾向于采用多云、多数据中心或混合云的策略来部署他们的推理服务。另一个特点是,为了确保数据一致性和管理的便捷性,会在特定地区选择公有云的对象存储作为所有模型数据的存储点。当进行推理任务调度时,可能会选取特定云服务进行任务调度。数据模型的拉取过程需要人工介入,如提前进行数据拷贝。

2024-08-23 14:26:41 1894

原创 如何判断数据库和对象存储是否被 JuiceFS 使用?

以上两个场景分别介绍了如何判断已有的数据库和对象存储是否被 JuiceFS 使用,掌握了这些技巧,相信读者可以更好地管理 JuiceFS 文件系统,避免误删、误操作等问题。使用单机数据库作为元数据引擎时,数据库命名尽量有意义和简短。这样既方便识别,又方便后续使用;预计会长期使用的文件系统,数据库和 Bucket 建议让 JuiceFS 独享,尽量不要与其他应用共享使用,避免潜在的误操作和使用冲突;

2024-08-16 14:49:23 790

原创 如何在 Kubernetes 中使用 ClickHouse 和 JuiceFS

ClickHouse 结合 JuiceFS 一直是一个热门的组合,社区中有多篇实践案例。今天的文章来自美国公司 Altinity,一家提供 ClickHouse 商业服务的企业,作者是 Vitaliy Zakaznikov,他尝试了这个组合并公开了过程中使用的代码。原文有两篇文章,“”、“JuiceFS 是一个兼容 POSIX 的文件系统,能够在 S3 对象存储上运行。作为一个分布式且云原生的文件系统,它具备多种功能,包括数据一致性、传输与静态加密、BSD 和 POSIX 文件锁,以及数据压缩。

2024-08-02 15:39:08 1061

原创 一文详解 JuiceFS 读性能:预读、预取、缓存、FUSE 和对象存储

JuiceFS 社区版架构分为客户端、数据存储和元数据三部分。数据访问支持多种接口,包括 POSIX 、HDFS API、S3 API,还有 Kubernetes CSI,以满足不同的应用场景。在数据存储方面,JuiceFS 支持几十种对象存储,包括公共云服务和自托管解决方案,如 Ceph 和 MinIO。元数据引擎支持多种常见的数据库,包括 Redis、TiKV 和 MySQL 等。企业版与社区版的主要区别在图片左下角元数据引擎和数据缓存的处理。

2024-07-26 14:07:33 2016 1

原创 小文件写入性能 5 倍于 S3FS,JuiceFS 加速生信研究

在生物信息学研究领域,NextFlow 是一款主流数据分析工具,广泛应用于多种研究项目。MemVerge,内存融合基础架构厂商,其公有云计算平台产品 Memory Machine Cloud (MMCloud) 无缝集成了 NextFlow,为生物信息学家提供了自动化的高性能计算、checkpoint/restore 功能和云主机选型优化,使他们无需适应新的复杂基础设施管理环境。

2024-07-24 16:35:39 1670

原创 JuiceFS 直连 NFS 新功能介绍,赋能 NAS 进行 AI 训练

JuiceFS v1.2.0 版本新增的直连 NFS 存储功能,让 JuiceFS 可以更好的与 NAS 配合使用,提升了 JuiceFS 对 NFS 的兼容性,同时也为企业提供了更简易的存储解决方案。用户可以利用现有的存储资源在本地构建高性能、高可用的分布式文件系统,为 AI 模型训练、数据分析等场景提供更好的支持。欢迎大家下载试用 JuiceFS v1.2.0 版本,体验直连 NFS 创建文件系统,为本地 AI 模型训练提供强大动力!

2024-07-19 13:31:49 719

原创 seaweedfs + TiKV 部署保姆级教程

在使用 JuiceFS 时,我们选择了 SeaweedFS 作为对象存储,以及 TiKV 作为元数据存储,目前在 SeaweedFS 上已经存储了近1.5PB 的数据。关于 SeaweedFS 和 TiKV 配置的参考资料不多,本文将为社区各位用户提供我们的部署实践,并提供详细的命令示例,希望能给社区各位用户一些参考。此外,在文章的最后会附上我们通过多个文件实现配额管理以及在 JuiceFS 文件系统内进行跨机房数据迁移的实践。

2024-07-12 15:04:48 640

原创 基于 JuiceFS 构建高校 AI 存储方案:高并发、系统稳定、运维简单

由于我们使用 PyTorch 框架进行模型训练,如果系统支持 POSIX 接口,将极大地降低用户的学习成本,同时减少对现有代码的改动。

2024-06-26 11:01:54 1066

原创 JuiceFS 社区版 v1.2 发布,新增企业级权限管理、平滑升级功能

JuiceFS 社区版 v1.2 今天正式发布,这是自 2021 年开源以来的第三个大版本。v1.2 也是一个长期支持版本(LTS)。我们将持续维护 v1.2 以及 v1.1 这两个版本,v1.0 将停止更新。JuiceFS 是为云环境设计的分布式文件系统,支持超过 10 种元数据引擎和 30 种以上的数据存储引擎。这些丰富的选择使得用户可以灵活应对多变的企业环境和数据存储需求;

2024-06-21 12:17:05 703

原创 贝壳找房: 为 AI 平台打造混合多云的存储加速底座

贝壳在机器学习平台建设方面起步较早,因此我们可以利用这些成熟的技术和框架来优化模型管理和分发。例如,我们已经成功将 JuiceFS 等技术应用于模型存储和管理中,进一步提升了系统的效率和稳定性。我们基于 JuiceFS 的架构设计了一套 AI 模型仓库方案。

2024-06-12 16:22:56 844

原创 稳定、省钱的 ClickHouse 读写分离方案:基于 JuiceFS 的主从架构实践

Jerry 是一家位于北美的科技公司,利用人工智能和机器学习技术,简化汽车保险和贷款的比价和购买流程。在美国,Jerry 的应用在其所属领域排名第一。随着数据规模的增长,Jerry 在使用 AWS Redshift 时遇到了一些性能与成本的挑战。Jerry 重新设计了系统架构,使用 ClickHouse 后,数据查询性能提升了 20 倍,并大幅降低了成本。但在使用过程中也遇到了磁盘损坏和数据恢复等诸多存储挑战。作为初创公司,Jerry 希望避免对 ClickHouse 集群进行大量的维护工作。。

2024-05-17 11:01:34 670

原创 详解 JuiceFS sync 新功能,选择性同步增强与多场景性能优化

JuiceFS sync 是一个强大的数据同步工具,支持在多种存储系统之间进行并发同步或迁移数据,包括对象存储、JuiceFS、NFS、HDFS、本地文件系统等。此外,该工具还提供了增量同步、模式匹配(类似 Rsync)、分布式同步等高级功能。在最新的 v1.2 版本中,针对 Juice sync 我们引入了多项新功能,并对多个场景进行了性能优化,以提高用户在处理大目录和复杂迁移时的数据同步效率。

2024-05-15 10:31:03 567

原创 JuiceFS v1.2-beta1,Gateway 升级,多用户场景权限管理更灵活

JuiceFS 将文件分块存储到底层的对象存储中,向用户提供 POSIX 接口访问 JuiceFS 中的文件。当用户需要同时用 S3 兼容接口访问文件时,就需要用 JuiceFS Gateway。在本次 JuiceFS 1.2-beta1 版本中,我们对 Gateway 功能新增了两项备受期待的模块:身份和访问管理(IAM):支持多用户的管理和访问控制,支持匿名访问控制;事件通知:可以使用桶事件通知来监控桶中对象发生的事件。

2024-05-06 10:42:15 1063

原创 如何使用 Grafana 监控文件系统状态

本文主要介绍了如何使用 Grafana Cloud 为 JuiceFS 搭建可视化的状态监控系统,为了满足不同经验背景的读者需要,每个环节尽量选择最简单的方式来实现。事实上,任何 IT 系统的搭建都是一个个选择堆叠而成。不难发现,在本文介绍的步骤中,有很多环节是可以有其他的选择,比如,Prometheus 的数据上报方式,文中选择了 Grafana Agent,而读者还可以选择用本地自建的 Prometheus。所以,本文只是抛砖引玉,最终的部署和使用方法还是需要读者自己灵活选择和搭配。

2024-04-12 14:46:29 799

原创 大模型存储实践:性能、成本与多云

大模型应用领域的迅猛发展,也推动着基础技术领域持续探索和进步。文件存储服务在 AI 基础设施中成为不可或缺的重要部分。在过去 18 个月的时间里,JuiceFS 团队与 MiniMax,阶跃星辰,智谱 AI,面壁智能,零一万物等大模型团队展开了交流与合作,已经支持了多家客户生产环境中数千卡的训练任务。在这篇文章中,我们将分享大型语言模型在存储领域面临的一些挑战与 JuiceFS 在服务这些场景时的实践经验,为相关企业提供参考。

2024-04-07 14:59:38 1062

原创 知乎:多云架构下大模型训练,如何保障存储稳定性?

知乎,中文互联网领域领先的问答社区和原创内容平台,2011 年 1 月正式上线,月活跃用户超过 1 亿。平台的搜索和推荐服务得益于先进的 AI 算法,数百名算法工程师基于数据平台和机器学习平台进行海量数据处理和算法训练任务。为了提高系统的易用性和灵活性,知乎实施了多云混合部署架构,允许不同云上的作业和服务透明地处理文件,且用户可以在容器中灵活与文件交互,无需关注文件的具体存放位置。

2024-03-28 14:01:16 1088

原创 在 Google Colab 中使用 JuiceFS

本文介绍了如何在 Google Colab 中使用 JuiceFS 来持久化保存数据,通过实例介绍了如何为 JuiceFS 准备元数据引擎和对象存储来尽量发挥它的性能,以及在 Colab 中的安装和挂载方法。最后通过 Fooocus 和 Chroma 两个例子,演示了在实际应用中如何利用 JuiceFS 来更好地保存并重复利用数据。希望这篇文章的内容能够对你起到一定的帮助,如果你有任何疑问,欢迎在评论区留言讨论。如果你对 JuiceFS 有兴趣,可以查看官方文档了解更多用法和性能调优方面的内容。

2024-03-22 15:13:50 1021

原创 从 HPC 到 AI:探索文件系统的发展及性能评估

随着 AI 技术的迅速发展,模型规模和复杂度以及待处理数据量都在急剧上升,这些趋势使得高性能计算(HPC)变得越来越必要。HPC 通过集成强大的计算资源,比如 GPU 和 CPU 集群,提供了处理和分析大规模数据所需的算力。然而,这也带来了新的挑战,尤其是在存储系统方面,包括如何有效处理大量数据、确保数据访问的高效性以及如何控制成本和运维管理。。它们通过跨多个节点分布存储资源,有效地处理和管理大数据集,满足 HPC 对数据存取速度的高要求。

2024-03-06 11:07:28 2419

原创 千卡利用率超98%,详解JuiceFS在权威AI测试中的实现策略

2023 年 9 月,AI 领域的权威基准评测 MLPerf 推出了。该基准测试通过模拟机器学习 I/O 负载的方法,在不需要 GPU 的情况下就能进行大规模的性能压测,用以评估存储系统的在 AI 模型训练场景的适用性。目前支持两种模型训练:BERT (自然语言模型) 和 Unet3D(3D医学成像)。

2024-02-28 10:46:47 952

原创 BentoML:如何使用 JuiceFS 加速大模型加载?

在介绍模型部署环节的工作之前,首先需要对 BentoML 是什么以及它的架构做一个简要的介绍。BentoML 是一个高度集成的开发框架,采用简单易用的方式,支持以开发单体应用的方式进行开发,同时以分布式应用的形式进行部署。这意味着开发者可以用很低的学习成本来快速开发一个高效利用硬件资源的大语言模型 AI 应用。BentoML 还支持多种框架训练出来的模型,包括 PyTorch、TensorFlow 等常用 ML 框架。

2024-02-21 10:58:45 901

原创 极限挑战:使用 Go 打造百亿级文件系统的实践之旅

JuiceFS 主要分为三大组件:客户端:它是与业务交互的接入层。JuiceFS 支持多种协议,包括 POSIX、Java SDK、Kerbenetes CSI Driver 和 S3 Gateway 等。元数据引擎:负责维护文件系统的目录树结构,以及各个文件的属性等。数据存储:负责存储普通文件的具体内容,通常由亚马逊 S3、阿里云 OSS 等对象存储担任。目前 JuiceFS 拥有社区版和企业版两个版本,它们的架构基本一致,主要区别在于元数据引擎的实现。

2024-02-02 14:46:15 479

原创 韩国国民搜索 NAVER:为 AI 平台引入存储方案 JuiceFS

NAVER 是一家多元化的互联网公司,拥有韩国最大的搜索引擎并在人工智能、自动驾驶等高科技领域积极投入。在搭建 AI 平台时,NAVER 评估了公有云平台的存储产品、Alluxio 以及高性能专用存储产品等多种选项后,最终决定采用 JuiceFS。通过使用JuiceFS,NAVER 成功地将内部存储资源升级为高性能、适应 AI 工作负载的存储解决方案。AiSuite 是 NAVER 开发者所使用的人工智能平台,它支持 NAVER 的各种服务的开发和运维。

2023-12-27 15:30:49 525

原创 机器人行业数据闭环实践:从对象存储到 JuiceFS

本文所指的机器人特指商用服务型机器人,如在商场中常见的自动清洁和送餐机器人。数据闭环是指收集终端用户的软件系统运行数据,以此来优化产品的功能和用户体验。数据闭环如下图所示,首先,机器人系统会捕捉并上传现场问题相关的数据。这些数据,包括传感器数据以及感知、规划和控制方面的信息,都将被直接采集并用于后续处理。接下来,工程师将着手解决现场问题,首要任务是将前一步骤中采集的数据进行可视化处理。这需要直接访问存储在 JuiceFS 的数据。

2023-12-13 16:19:36 488

原创 手把手教你搭建 Ceph+JuiceFS

Ceph 提供了对象存储,可作为存储引擎在 JuiceFS 中使用。这一组合非常适合云计算、大数据分析和机器学习等数据密集型应用场景。在日常部署中可直接通过 Ceph RADOS 配合 JuiceFS 使用,无需部署 RGW。基于此方案实践以及运维中的常见问题,结合整理了这篇博客,旨在帮助那些不太熟悉 Ceph 的工程师顺利部署和运维 Ceph,并与 JuiceFS 进行对接。

2023-12-08 10:58:03 279 1

原创 JuiceFS 用户必备的 6 个技巧

随着大数据、AI 技术的发展,越来越多的企业、团队和个人开始使用 JuiceFS,本文整理了 6 个超实用的 JuiceFS 技巧,帮助大家提升 JuiceFS 的管理效率。

2023-11-22 17:07:52 320

原创 基于JuiceFS 的低成本 Elasticsearch 云上备份存储

Elasticsearch 的数据备份是通过快照机制实现的。为了完成集群的快照,需要依赖一个共享存储系统,即所有节点需要挂载到共享存储的同一个目录,并且每个节点对此目录需有读写权限,最初我们使用 NAS(即 NFS)来实现备份,这个方案也已经稳定运行多年。在此,我还是再强调一下数据备份重要性。很多小伙伴误认为 Elasticsearch 具备副本机制,只要配置多副本就不怕数据丢失,为什么还要备份呢?再多的副本禁不住一个 DELETE 误操作;

2023-11-15 16:36:39 278

原创 POSIX 真的不适合对象存储吗?

从测试结果来看,直接写 MinIO 和 JuiceFS 的性能相当,均可在 30s 内完成,而 s3fs-fuse 写入 10GB 文件耗时 3 分钟以上,平均比前两者慢了 6 倍左右。在写入大文件时,mc 会使用 Multipart API 来将文件分块上传到 S3 接口,而只能单线程写入到 POSIX。JuiceFS 在大文件的顺序写也会自动将文件分块并并发写入到 MinIO 中,因此与直接写 MinIO 性能相当。

2023-10-25 16:56:42 177

原创 JuiceFS 目录配额功能设计详解

JuiceFS 在最近 v1.1 版本中加入了社区中呼声已久的目录配额功能。已发布的命令支持为目录设置配额、获取目录配额信息、列出所有目录配额等。完整的详细信息,请查阅。在设计此功能时,对于它的统计准确性,实效性以及对性能的影响,团队内部经历过多次讨论和权衡。在本文中,我们会详述一些在设计关键功能时的不同抉择及其优缺点,并分享最终的实现方案,为想深入了解目录配额或有相似开发需求的用户提供参考。

2023-10-09 15:47:23 224

原创 小米云原生文件存储平台化实践:支撑 AI 训练、大模型、容器平台多项业务

小米作为全球知名的科技巨头公司,已经在数百款产品中广泛应用了 AI 技术,这些产品包括手机、电视、智能音箱、儿童手表和翻译机等。这些 AI 应用主要都是通过小米的深度学习训练平台完成的。在训练平台的存储方案中,小米曾尝试了多种不同的存储方式,包括 Ceph+NFS、HDFS 和对象存储挂载等。然而,这些不同的存储方式导致了数据冗余和维护管理成本的增加,同时也带来了扩展性和性能方面的问题。

2023-09-22 14:16:44 897

原创 浅析 GlusterFS 与 JuiceFS 的架构异同

在进行分布式文件存储解决方案的选型时,无疑是一个不可忽视的考虑对象。作为一款开源的软件定义分布式存储解决方案,GlusterFS 能够在单个集群中支持高达 PiB 级别的数据存储。自从首次发布以来,已经有超过十年的发展历程。目前,该项目主要由 Red Hat 负责维护,并且在全球范围内拥有庞大的用户群体。本文旨在通过对比分析的方式,介绍 GlusterFS 与 JuiceFS 的区别,为您的团队在技术选型过程中提供一些参考。

2023-08-25 10:39:36 764

原创 存算分离实践:构建轻量、云中立的大数据平台

同样是增加存储资源,存算一体架构下会闲置部分计算资源,存算分离则不会有这个问题。此外,数据量的不断增长还带来了 HDFS NameNode 元数据压力、集群节点规模扩张受限等问题。这些问题也时时刻刻牵动着各个大数据团队紧绷的神经。

2023-08-16 17:18:36 547

原创 网易互娱出海之旅:大数据平台上云架构设计与实践

相比原生的 JuiceFS 方案,Hadoop+JuiceFS 使用额外的副本实现了储性能优化和实现兼容性与高可用的支持。DN 只写一个副本的方案, 依赖 JuiceFS 在可靠性上的迭代优化。虽然已经在不同云上实现一套多云兼容、对比 EMR 更好的方案,但是对于混合多云和云原生的方案还需要更多的迭代。对于未来大数据云原生场景的展望,目前我们采取的解决方案并非终极版本,而是一个过渡性方案,旨在解决兼容性和成本问题。

2023-08-11 15:23:27 402

原创 实现无限存储:基于JuiceFS 创建 Samba 和 NFS 共享

本文介绍了如何使用 JuiceFS 文件系统作为 NFS 和 Samba 的共享存储,实现一个面向内网且几乎没有容量上限的共享存储空间。通过引入 Cockpit 的图形化管理界面,让读者可以更方便地管理多用户、多权限的 Samba 和 NFS 共享。另外还分享了各种共享在挂载访问时常见的问题和解决方法,希望这篇内容能够对你有一些帮助,如果有其他疑问欢迎加入JuiceFS 社区与大家共同交流。

2023-08-07 14:21:27 456

原创 构建易于运维的 AI 训练平台:存储选型与最佳实践

伴随着公司业务的发展,数据量持续增长,存储平台面临新的挑战:大图片的高吞吐、超分辨率场景下数千万小文件的 IOPS 问题、运维复杂等问题。除了这些技术难题,我们基础团队的人员也比较紧张,负责存储层运维的仅有 1 名同事,因而组件的易用性,一直也是我们评估的重要维度。我们尝试过文件系统包括有 NFS、GlusterFS、Lustre 和 CephFS,最终选择了JuiceFS。

2023-08-02 16:34:02 507

原创 万字长文 | Hadoop 上云: 存算分离架构设计与迁移实践

一面数据原有的技术架构是在线下机房中使用 CDH 构建的大数据集群。自公司成立以来,每年都保持着高速增长,业务的增长带来了数据量的剧增。在过去几年中,我们按照每 1 到 2 年的规划扩容硬件,但往往在半年之后就不得不再次扩容。而每次扩容都需要花费大量精力。。在这个案例中,我们将为大家介绍 Hadoop 上云的架构设计、选型的思考、组件评估以及数据迁移的整个过程。目前,基于JuiceFS 我们实现了计算和存储分离的架构,总存储量增加了2倍;性能方面的变化无明显感知,运维成本大幅降低。

2023-07-14 14:23:22 987

原创 文件系统考古4:如何支持多个文件系统

Steve Kleiman 在 1986 年撰写了《》一文。这篇论文幅较短,大部分内容是数据结构的列举,以及 C 语言结构之间相互指向的图表。Steve Kleiman是分布式文件系统领域的专家,在 Sun Microsystem 工作了多年,曾参与开发 Sun Network File System(NFS)等项目,为分布式文件系统领域做出了重要贡献。Kleiman 希望在 Unix 中能够拥有多个文件系统,并希望这些文件系统能够共享接口和内存。

2023-07-07 11:01:45 215

原创 文件系统考古 3:1994 - The SGI XFS Filesystem

在 1994 年,论文《》发表了。自 1984 年以来,计算机的发展速度变得更快,存储容量也增加了。值得注意的是,在这个时期出现了更多配备多个 CPU 的计算机,并且存储容量已经达到了 TB 级别。对于这些设备,仅仅对 4.3BSD 快速文件系统(或 SGI IRIX 中称为 EFS 的修改版本)进行改进已不再足够。(点击。

2023-06-26 13:48:04 462

原创 云上使用 Stable Diffusion ,模型数据如何共享和存储

JuiceFS 是一款面向云原生设计的高性能分布式文件系统,在 Apache 2.0 开源协议下发布。提供完备的 POSIX 兼容性,可将几乎所有对象存储接入本地作为海量本地磁盘使用,亦可同时在跨平台、跨地区的不同主机上挂载读写。如图所示,JuiceFS 文件系统由元数据引擎和对象存储组成,元数据引擎用来存储文件名、大小、权限等元数据信息,对象存储用来存储文件的数据块。使用基于网络的对象存储和数据库创建 JuiceFS 文件系统,它就具备了跨平台、跨网络的共享访问能力。

2023-06-19 16:11:24 2677 1

原创 之江实验室: 如何基于 JuiceFS 为超异构算力集群构建存储层 ?

今天,高性能计算结合人工智能技术正在推动科研创新。例如通过破解水稻基因密码推动作物育种从“试验选优”向“计算选优”发展,在医药领域快速分析分子与蛋白之间的相互作用,发现潜在的能够有效干预疾病发生的药物分子。之江实验室就是上述科研创新的推动者,实验室由浙江省政府主导、浙江大学等院校支持、企业参与的事业单位性质的新型研发机构,为材料、基因、制药、天文、育种等科学领域的研究提供新的方法、工具和手段。

2023-06-14 17:27:21 675

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除