• 博客(119)
  • 收藏
  • 关注

原创 云上使用 Stable Diffusion ,模型数据如何共享和存储

JuiceFS 是一款面向云原生设计的高性能分布式文件系统,在 Apache 2.0 开源协议下发布。提供完备的 POSIX 兼容性,可将几乎所有对象存储接入本地作为海量本地磁盘使用,亦可同时在跨平台、跨地区的不同主机上挂载读写。如图所示,JuiceFS 文件系统由元数据引擎和对象存储组成,元数据引擎用来存储文件名、大小、权限等元数据信息,对象存储用来存储文件的数据块。使用基于网络的对象存储和数据库创建 JuiceFS 文件系统,它就具备了跨平台、跨网络的共享访问能力。

2023-06-19 16:11:24 2688 1

原创 之江实验室: 如何基于 JuiceFS 为超异构算力集群构建存储层 ?

今天,高性能计算结合人工智能技术正在推动科研创新。例如通过破解水稻基因密码推动作物育种从“试验选优”向“计算选优”发展,在医药领域快速分析分子与蛋白之间的相互作用,发现潜在的能够有效干预疾病发生的药物分子。之江实验室就是上述科研创新的推动者,实验室由浙江省政府主导、浙江大学等院校支持、企业参与的事业单位性质的新型研发机构,为材料、基因、制药、天文、育种等科学领域的研究提供新的方法、工具和手段。

2023-06-14 17:27:21 681

原创 JuiceFS 社区版 v1.1- Beta 发布,新增五个实用功能

我们很高兴地宣布 JuiceFS v1.1-Beta 版本正式发布啦!这是一个功能丰富的版本,带来了许多实用的新功能和改进。此外,我们还新增了一个元数据引擎 FoundationDB,一个支持分布式事务的 Key-Value 存储。下面,我们将详细介绍这个版本的新功能和变化。

2023-06-12 11:02:31 622

原创 文件系统考古2:1984 - BSD Fast Filing System

今天继续与大家分享系列文章《》,由撰写。我们将进入文件系统的第二个十年,即1984年,计算机由微型计算机发展到了桌面和机柜工作站, BSD Fast Filing System 登场。回看第一篇:早期的 Unix 文件系统已经表现得很好,但也存在一些明显的问题。这些问题在操作系统 BSD(Berkeley Software Distribution)中进行了许多修复。BSD 起源于 20 世纪 70 年代末和 80 年代初,由加州大学伯克利分校的计算机科学系开发和推广。

2023-06-08 10:48:19 926

原创 从架构到特性:JuiceFS 企业版首次全面解析

JuiceFS 企业版 4.9 引入了一些新的特性,最大的变化是新增了很多之前企业版没有的子命令,比如 gateway、sync、stats、load。社区版的用户应该对这些命令比较熟悉,因为这些命令在社区版里面早已提供了。现在在企业版 4.9 里面,也使用了很多社区版已经有的命令来对齐功能。另外一个对齐社区版功能的特性是支持使用多个 bucket 来存储数据。这个功能在社区版中早已存在。一般来说,一个文件系统可能只会对应一个对象存储 bucket。

2023-06-02 11:22:11 533

原创 文件系统考古:1974-Unix V7 File System

有时,进步难以察觉,特别是当你正身处其中时。而对比新旧资料之间的差异,寻找那些推动变革的信息源,我们就可以清晰地看到进步的发生。在Linux(以及大部分Unix系统)中,都可以印证这一点。Unix V7 是 Unix 操作系统的一个重要的早期版本,于 1979 年发布,是贝尔实验室最后一个广泛分发的版本。它是第一个真正可移植的 Unix 版本,被移植到了多种平台上,包括 DEC PDP-11, VAX, x86, Motorola 68000 等。

2023-05-26 15:27:09 1016

原创 从本地到云端:豆瓣如何使用 JuiceFS 实现统一的数据存储

Gentoo Linux 是一个较为小众的 Linux 发行版,具有几乎无限制的适应性特性,是一个原发行版。Gentoo Linux 采用滚动更新的方式,所有软件包都直接从社区中获取二进制包,我们则通过源代码构建我们所需的软件包。Gentoo Linux 有一个强大的包管理器,使用它也会带来很多便利,也同时存在一些问题。比如,滚动更新的速度非常快,但对于服务器来说,可能存在一定的不稳定性。

2023-05-10 16:13:44 818 1

原创 加速 AI 训练,如何在云上实现灵活的弹性吞吐?

AI 已经成为各行各业软件研发的基础,带来了前所未有的效率和创新。今天,我们将分享苏锐在AWS量化投研行业活动的演讲实录,为大家介绍JuiceFS 在 AI 量化投研领域的应用经验,也希望为其他正在云上构建机器学习平台,面临热点数据吞吐不足的企业提供一些启发。

2023-05-06 14:57:14 770

原创 如何借助分布式存储 JuiceFS 加速 AI 模型训练

传统的机器学习模型,数据集比较小,模型的算法也比较简单,使用单机存储,或者本地硬盘就足够了,像 JuiceFS 这样的分布式存储并不是必需品。随着近几年深度学习的蓬勃发展,越来越多的团队开始遇到了单机存储的瓶颈,分布式存储在 AI 领域的重要性不断凸显。随着数据量和模型规模的增加,单机存储往往无法满足需求。为解决这些问题,就需要使用分布式存储。在某些应用场景每天都会产生大量新的数据集,这些数据集在一段时间后将变为历史数据,需要进行归档。

2023-04-26 16:27:16 977

原创 云上大数据存储:探究 JuiceFS 与 HDFS 的异同

特性HDFSJuiceFS 社区版JuiceFS 企业版发布时间200520212017编程语言JavaGoGo开源Apache V2Apache V2闭源高可用支持(依赖ZK)依赖元数据引擎支持元数据扩展独立命名空间依赖元数据引擎横向扩展,单一命名空间元数据存储内存数据库内存元数据缓存不支持支持支持数据存储磁盘对象存储对象存储数据缓存Datanode 内存缓存客户端缓存客户端缓存/分布式缓存数据亲和性支持支持支持。

2023-04-04 08:57:17 393

原创 存算分离实践:JuiceFS 在中国电信日均 PB 级数据场景的应用

在自研的 Hadoop 2 和 Hadoop 3 中都涉及了这项工作,最初是采用亚马逊提交的 S3 代码,国内的阿里云、腾讯云和华为云也分别推出了自己的实现并提交到 Hadoop 社区中,但这些方案缺乏对元数据的加速支持。在统一访问层,将提供一套统一的管理工具,任务的提交都将通过任务网关,并通过元数据打通多个集群。而现在的架构则是存储计算分离,将更多的磁盘用于对象存储,建立了一个对象存储池,以及相应的元数据加速层,所有的HDFS访问都会通过元数据加速层访问底层的对象存储层。

2023-03-17 10:38:07 1153

原创 浅析三款大规模分布式文件系统架构设计

当提到文件系统,大部分人都很陌生。但我们每个人几乎每天都会使用到文件系统,比如大家打开 Windows、macOS 或者 Linux,不管是用资源管理器还是 Finder,都是在和文件系统打交道。如果大家有自己动手装过操作系统的话,第一次安装的时候一定会有一个步骤就是要格式化磁盘,格式化的时候就需要选择磁盘需要用哪个文件系统。维基百科上的关于文件系统的定义是:简而言之,文件系统管理的是某种物理存储介质(如磁盘、SSD、CD、磁带等)上的数据。

2023-03-09 13:10:35 497

原创 Sidecar-详解 JuiceFS CSI Driver 新模式

•Pod:可以在 Kubernetes 中创建和管理的、最小的可部署的计算单元•:声明式资源,对 Pod 的不同管理方式•:集群中的一块存储•:表达的是用户对存储的请求•:为管理员提供了描述存储 “类” 的方法•:容器存储接口。

2023-03-03 14:18:03 705 1

原创 JuiceFS 在火山引擎边缘计算的应用实践

火山引擎边缘云是以云计算基础技术和边缘异构算力结合网络为基础,构建在边缘大规模基础设施之上的云计算服务,形成以边缘位置的计算、网络、存储、安全、智能为核心能力的新一代分布式云计算解决方案。

2023-02-17 14:34:18 558

原创 浅析 SeaweedFS 与 JuiceFS 架构异同

SeaweedFS 是一款高效的分布式文件存储系统,最早的设计原型参考了 Facebook 的 Haystack,具有快速读写小数据块的能力。本文将通过对比 SeaweedFS 与 JuiceFS 在设计与功能上的差异,以帮助读者进行更适合自己的选择。

2023-02-10 14:35:10 701

原创 如何使用 JuiceFS 创建 WebDAV 共享

与 FTP 类似,WebDAV 也是相对比较古老的文件共享协议,但它们至今仍被广泛的应用。信息技术领域永远没有最好的工具,只有最合适的工具。从功能上来说,WebDAV 可能没有专用的网盘客户端来的功能丰富,但 WebDAV 协议更通用和开放,可以直接在大量内置支持的应用程序上使用,不但可以保护自己的隐私,还能避免被特定的平台捆绑。

2023-02-01 15:42:11 447

原创 聊聊 AI 平台存储方案和选型

从 2017 年到 2021 的时候,我们用 Lustre 也是比较稳定的,集群存储量少于 50% 的时候,软件的稳定性都是比较高的。Lustre 作为老牌 HPC 领域的存储系统,为许多全球最大的超算系统提供动力,具有多年的生产环境经验。其具有符合 POSIX 标准、支持各种高性能低时延的网络,允许 RDMA 访问的优点,适用于传统 HPC 领域的高性能计算,跟深度学习的接口是契合的,所有的业务都是不需要做代码修改。但是也有一些缺点:第一,Lustre 无法支持云原生 CSI Driver。

2023-01-13 15:27:58 1488

原创 云知声: 基于 JuiceFS 的超算平台存储实践

从 2017 年到 2021 的时候,我们用 Lustre 也是比较稳定的,集群存储量少于 50% 的时候,软件的稳定性都是比较高的。Lustre 作为老牌 HPC 领域的存储系统,为许多全球最大的超算系统提供动力,具有多年的生产环境经验。其具有符合 POSIX 标准、支持各种高性能低时延的网络,允许 RDMA 访问的优点,适用于传统 HPC 领域的高性能计算,跟深度学习的接口是契合的,所有的业务都是不需要做代码修改。但是也有一些缺点:第一,Lustre 无法支持云原生 CSI Driver。

2022-12-22 13:21:39 1055

原创 JuiceFS CSI Driver 常见问题排查指南

JuiceFS CSI Driver 的架构如下图,共有两个组件:Controller Service:以 PV id 为名在 JuiceFS 文件系统中创建子目录。Node Service:创建 Mount Pod(JuiceFS 客户端),并挂载应用 Pod。多个 Pod 共用 PV 时,不会新建 Mount Pod,而是对已有的 Mount Pod 做引用计数,计数归零时删除 Mount Pod。CSI 驱动组件与客户端解耦,方便 CSI 驱动自身的升级。

2022-12-14 14:24:19 430

原创 2022 JuiceFS 社区用户调研结果出炉

为了使 JuiceFS 的发展更贴合用户的真实需求,我们在三周前向社区发出了一份调研问卷。此次调研面向已经将 JuiceFS 应用于生产环境的用户,了解其在应用 JuiceFS 前和使用中的体验与评价。24% 来自50-200人的企业;22% 来自 200-1000人的企业;还有11% 来自0-50人的企业。完整调研结果,请继续阅读下文。如有帮助的话欢迎关注我们项目。

2022-12-01 15:36:23 436

原创 金山云:基于 JuiceFS 的 Elasticsearch 温冷热数据管理实践

Elasticsearch(下文简称“ES”)是一个分布式的搜索引擎,还可作为分布式数据库来使用,常用于日志处理、分析和搜索等场景;在运维排障层面,ES 组成的 ELK(Elasticsearch+ Logstash+ Kibana)解决方案,简单易用、响应速度快,并且提供了丰富的报表;高可用方面, ES 提供了分布式和横向扩展;数据层面,支持分片和多副本。ES 的使用便捷,生态完整,在企业之中得到了广泛的应用。 随之而来的是物理资源和费用的增加,如何降低 ES 场景的成本成为了大家普遍关心的话题。ES 的

2022-11-18 14:07:34 1195

原创 元数据性能大比拼:HDFS vs S3 vs JuiceFS

一般我们在看一个系统的性能时,主要关注它的操作时延(单个操作所消耗的时间)和吞吐量(满负载下的处理能力),我们把这两个指标再汇总一下:S3 非常慢,尤其是 Rename 操作,因为它是通过 Copy + Delete 实现的。本文测试的还只是单个空文件的 Rename,而大数据场景常用的是对整个目录的 Rename,差距会更大。JuiceFS 的速度比 HDFS 更快。S3 的吞吐量非常低,和其它两个产品有一到两个数量级的差距,意味着它需要使用更多的计算资源,产生更高的并发,才能获得同等的处理能力。

2022-11-16 11:23:14 4417

原创 乾象投资:基于JuiceFS 构建云上量化投研平台

在使用过程中,我们发现不同的计算集群资源的利用率差别很大,集群中有一些大带宽的机器,大部分时候都是用来做单节点的计算,这也就意味着机器的网络的资源基本上是没有怎么用到,而且还有一些闲置的磁盘,因此就在这些机器上去部署了缓存节点,把闲置的网络带宽给利用了起来。原始数据除了行情数据,即大家经常会看到的市场上的股价、交易量之类的数据,也包括一些非量价的数据,比如研报、财报、新闻、社交媒体等之类的非结构化数据,研究人员会通过一系列的变换提取出特征,再进行 AI 模型训练。信号的强度意味着策略导向性的强度。

2022-10-28 15:12:07 968

原创 七款云上共享文件系统 POSIX 兼容性大比拼

JuiceFS 在兼容性方面表现最好,通过了全部的测试项。Google Filestore 次之,有两类未能通过,其中有一项不影响实际使用。腾讯云 CFS 与阿里云 NAS 相差不多,皆有 7-8 项未通过。华为云 SFS ,Amazon EFS 与 Azure File Shares的兼容性较差,有大量的兼容性测试通不过,其中包括有严重安全隐患的若干个测试用例,使用前建议做安全性评估。如有帮助的话欢迎关注我们项目哟!(0ᴗ0✿)

2022-10-20 15:51:01 1066

原创 JuiceFS 元数据引擎选型指南

它们的原生接口比较简单,因此在 JuiceFS 中的定制性更好,相较于 SQL 类一般也能有更高的性能。目前这一类支持的有 TiKV、etcd 和嵌入式的 BadgerDB 等FoundationDB 的支持也在紧锣密鼓地开发中。

2022-10-10 15:33:40 2704 1

原创 JuiceFS 在 Elasticsearch/ClickHouse 温冷数据存储中的实践

企业数据越存越多,存储容量与查询性能、以及存储成本之间的矛盾对于技术团队来说是个普遍难题。这个难题在 Elasticsearch 与 ClickHouse 这两个场景中尤为突出,为了应对不同热度数据对查询性能的要求,这两个组件在架构设计上就有一些将数据进行分层的策略。同时,在存储介质方面,随着云计算的发展,对象存储以低廉的价格和弹性伸缩的空间获得了企业的青睐。越来越多的企业将温、冷数据迁移至对象存储。

2022-09-28 10:49:36 703

原创 从 Hadoop 到云原生, 大数据平台如何做存算分离

Hadoop 的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变;随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hadoop 的架构进行改造。今天与大家一起简单回顾 Hadoop 架构以及目前市面上不同的存算分离的架构方案,他们的利弊各有哪些,希望可以给正在存算分离架构改造的企业一些参考和启发。

2022-09-14 11:24:09 1921

原创 存储更弹性,详解 Fluid “ECI 环境数据访问” 新功能

本文介绍了在ECI 环境中,用户如何借助 Fluid 使用 JuiceFS,并使用 JuiceFS 的分布式缓存能力,来提升云上应用的数据访问速率。未来,JuiceFS 亦会在 CSI 中通过 Sidecar 的方式支持 Serverless 场景,用户可以通过更加原生的方式在 ECI 中使用 JuiceFS。如有帮助的话欢迎关注我们项目哟!(0ᴗ0✿)

2022-09-02 15:03:16 762

原创 理想汽车 x JuiceFS:从 Hadoop 到云原生的演进与思考

如有帮助的话欢迎关注我们项目。

2022-08-24 15:48:23 1296 1

原创 JuiceFS v1.0 正式发布,首个面向生产环境的 LTS 版本

🎉经过了 18 个月的持续迭代和大量生产环境的广泛验证,此版本将成为第一个被长期维护的稳定版(LTS)。同时,该版本提供完整的向前兼容,所有用户可以直接升级。JuiceFS 是为云环境设计的分布式文件系统,同时兼容 POSIX、HDFS、S3 访问协议,也可以使用 CSI 方式在 Kubernetes 中作为 PV 使用,在大数据、机器学习,和需要共享文件存储的场景中广泛使用。...

2022-08-10 11:36:31 1643

原创 JuiceFS 新手必知 24 问

JuiceFS 是一个创新性的软件产品,很多初次尝试的小伙伴对产品和用法感到很多疑惑,所以为了帮助大家快速理解并上手 JuiceFS,我们整理了24个关于 JuiceFS 经典的问题答案,相信经过这 24 问,大家对 JuiceFS 会有更清晰的认识,使用上也会更加得心应手。...

2022-08-03 10:30:20 1002

原创 一面数据: Hadoop 迁移云上架构设计与实践

我们机房使用的是CDH5.14,其中Hadoop版本是2.6,阿里云上最接近的版本是EMR3.38.但调研时发现该版本的Impala和Ranger不兼容(实际上我们机房使用的是Sentry做权限管理,但EMR上没有),最终经过评估对比,决定直接使用EMR5的最新版,几乎所有组件的大版本都做了升级(包含Hadoop3、Spark3和Impala3.4)。在这几年间,按1到2年规划的硬件,往往因数据增长超出预期而在半年后不得不再次扩容。...

2022-07-28 10:49:47 962

原创 40+倍提升,详解 JuiceFS 元数据备份恢复性能优化之路

JuiceFS 支持多种元数据存储引擎,且各引擎内部的数据管理格式各有不同。为了便于管理,JuiceFS 自 0.15.2 版本提供了 dump 命令允许将所有元数据以统一格式写入到 JSON 文件进行备份。同时,JuiceFS 也提供了 load 命令,允许将备份恢复或迁移到任意元数据存储引擎。命令的详细信息可以参考这里。基本用法:该功能自 0.15.2 版本发布后到现在 v1.0 RC2 经历了 3 次比较大的优化,性能得到了几十倍的提升, 我们主要在以下三个方向做了优化:这些优化思路比较典型,对于类

2022-07-13 16:48:12 1302

原创 AI 企业多云存储架构实践 | 深势科技分享

2020 年末,谷歌旗下 DeepMind 研发的 AI 程序 AlphaFold2 在国际蛋白质结构预测竞赛上取得惊人的准确度,使得“ AI 预测蛋白质结构”这一领域受到了空前的关注。今天我们邀请到同领域企业,深势科技为大家分享其搭建基础平台时的实践与思考。AI 场景中的使用的数据有哪些新特点?混合云架构如何与超算平台结合?为何会选择 JuiceFS?深势科技成立于 2018 年,是 “AI for Science” 科学研究范式的先行者,致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题

2022-07-06 12:14:59 827

原创 AI 场景存储优化:云知声超算平台基于 JuiceFS 的存储实践

云知声是一家专注于语音及语言处理的技术公司。**Atlas 超级计算平台是云知声的计算底层基础架构,为云知声在 AI 各个领域(如语音、自然语言处理、视觉等)的模型迭代提供训练加速等基础计算能力。**Atlas 平台深度学习算力超过 57 PFLOPS(5.7 亿亿次/秒,是的你没有看错,是亿亿次]),深度学习算力是衡量一个 AI 平台计算性能的核心指标。除了满足公司内部的业务需求,平台也为外部企业和院校机构提供定制化计算服务。本文主要分享云知声 Atlas 超算平台(以下简称 Atlas)的存储建设历程以

2022-06-29 18:01:37 1335

原创 如何使用 etcd 实现分布式 /etc 目录

etcd 是一款兼具一致性和高可用性的键值数据库,简单、安全、快速、可信,目前是 Kubernetes 的首要数据存储。我们先来看一段 etcd 官方对于名字的解释。上面一段话来源于 etcd 官网,etcd 富有想象力地把etc (Linux 系统通常用来存储配置文件的地方) 与 distributed (分布式) 两个概念结合在了一起,然而,由于 etcd 通过 HTTP API 提供服务,因此”遗憾”地没能实现一个真正的分布式 /etc 目录。下面我们将介绍,如何通过 JuiceFS,帮助 etcd

2022-06-23 16:19:48 904

原创 JuiceFS V1.0 RC1 发布,大幅优化 dump/load 命令性能, 深度用户不容错过

各位社区的伙伴,JuiceFS v1.0 RC1 今天正式发布了!这个版本中,最值得关注的是对元数据迁移备份工具 dump/load 的优化。这个优化需求来自于某个社区重度用户,这个用户在将亿级数量文件的元数据从 Redis 迁移至 TiKV 时遇到了内存占用过高的问题,我们接到反馈后着手优化,最终使 dump 所需内存降低 95%,load 所需内存降低 80%。下面,我们来为你详细解读一下 JuiceFS v1.0 RC1 的主要变化。现有的 命令实现中,会先将元数据引擎中的所有数据加载到客户端内存,

2022-06-16 14:57:14 632

原创 30款提升组织效能 SaaS 工具,我们的宝藏工具箱大公开

熟悉 Juicedata 的小伙伴知道,从2017年成立到第一款产品发布、从寻找PMF(Product Market Fit) 到开源,我们一直保持着一个精简的团队配置,不少人都很好奇我们是如何做到的?今天邀请Juicedata的合伙人苏锐,为大家分享各阶段用到的趁手工具。 ...

2022-06-07 15:14:12 1691

原创 移动云使用 JuiceFS 支持 Apache HBase 增效降本的探索

本文主要介绍了移动云使用 JuiceFS 接入对象存储优化 Apache HBase 的方案选型思考、验证,供大家参考。

2022-06-01 10:58:24 1087 1

原创 Grafana+Prometheus 搭建 JuiceFS 可视化监控系统

作为承载海量数据存储的分布式文件系统,用户通常需要直观地了解整个系统的容量、文件数量、CPU 负载、磁盘 IO、缓存等指标的变化。JuiceFS 没有重复造轮子,而是通过 Prometheus 兼容的 API 对外提供实时的状态数据,只需将其添加到用户自建的 Prometheus Server 建立时序数据,然后通过 Grafana 等工具即可轻松实现 JucieFS 文件系统的可视化监控。快速上手这里假设你搭建的 Prometheus Server、Grafana 与 JuiceFS 客户端都运行在

2022-05-25 16:17:43 883

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除