- 博客(142)
- 问答 (2)
- 收藏
- 关注
原创 案例分享|Shopee 在 Alluxio 加速 AI 训练的实践与探索
Shopee Data Infra的分布式存储开发工程师-孙颢宁,带来分享:Shopee在Alluxio加速AI训练的实践与探索
2024-10-15 18:41:55 699
原创 Alluxio在数据索引和模型分发中的核心价值与应用
在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。在这样的背景下,Alluxio Enterprise AI 在数据索引与模型分发/部署方面展示了其独特的优势,特别是在处理海量数据扇出( Fanout )场景时,显著提升了系统的效率和成本效益。
2024-10-11 17:51:33 598
原创 南科大分享|大数据技术如何赋能大模型训练及开发
Scaling law 表明,大模型需要在互联网级别的海量数据上进行训练, 但现有的大模型训练方案基本上仍然采用过去小规模数据的简单训练范式, 难以匹配现有需求。我们从底层训练框架出发,重新设计了数据在训练过程中的生命周期, 使数据开发与模型训练解耦, 改善了大模型训练中大规模数据处理及治理的难题。从而将数据和算法在大模型开发周期中可以在同等层次上对待,还为大模型训练提供了更加灵活和智能的解决方案。这项研究为未来的大模型训练开辟了新的方向,不仅在理论上具有重要意义,也在实际应用中展现出巨大的潜力。
2024-10-11 17:02:09 782
原创 选择Alluxio来解决AI模型训练场景数据访问的五大理由
在AI模型训练尤其是大模型领域,存储系统的性能和稳定性直接决定了模型训练、推理、部署任务的效率和成本。随着全球AI行业的爆发带来的数据规模的快速增长,如何高效管理和利用这些数据成为AI模型训练中的一大挑战。
2024-09-20 18:25:13 790
原创 Alluxio Enterprise AI on K8s FIO 测试教程
fio是业内常用的磁盘与文件系统性能测试工具,下面内容将通过文字方式介绍Alluxio on k8s 进行fio测试的教程。
2024-09-20 18:04:33 1422
原创 Alluxio EnterpriseAI on K8s 部署教程
本文将通过视频和文字的方式,介绍如何通过Operator(Kubernetes管理应用程序的扩展) 在 Kubernetes 上安装 Alluxio
2024-09-20 18:01:34 1545
原创 对比速览 | Alluxio 企业版 v.s. 社区版
当前诸多企业面临着日益增长的数据量和复杂的数据管理挑战。特别是在模型训练的过程中,诸如GPU短缺、GPU利用率不高等问题已经成为许多企业在技术实施中面临的挑战。同时,大数据分析中跨云数据访问速度慢、成本高等问题也给企业带来了痛点。为了应对这些挑战,企业们积极寻求更便捷的数据管理和模型训练加速解决方案。Alluxio企业版提供了针对商业级需求的增强功能和支持。企业版不仅仅是Alluxio社区版的延伸,更是为了满足企业级应用中的稳定性、安全性和性能需求而设计的高阶解决方案。
2024-08-06 14:47:23 617
原创 案例分享|Alluxio在自动驾驶数据闭环中的应用
分享嘉宾:孙涛 - 中汽创智智驾工具链数据平台开发专家。分享提纲:1. 自动驾驶数据闭环介绍;2. Alluxio 在采集标注训练以及合规平台的一些应用场景;3. 目前存在的问题以及未来规划。
2024-08-02 17:53:47 1053
原创 XSKY对象存储深度结合Alluxio分布式缓存系统,GPU利用率提高至90%以上
近日,Alluxio分布式缓存系统完成了与XSKY星辰天合的 XEOS V6.4 对象存储的兼容性测试,旨在解决数据管理和加速方面的挑战。双方进行了深度的产品对接和联合开发,将 Alluxio 分布式缓存系统与 XEOS 对象存储的众多应用特性进行结合,推出一体化存储联合方案,以更好地支持 AI 场景下的数据管理和加速需求。近年来,随着 AI、大数据的逐渐推广和完善,特别是 AI 大模型(LLM、多模态、文生视频等)的广泛推广,超大数据量的存储以及访问已经成为了企业面临的一个重大的技术以及成本挑战。
2024-06-05 10:55:06 1098 1
原创 案例分享|Alluxio在自动驾驶模型训练中的应用与部署
杨林三-辉羲智能辉羲智能致力打造创新车载智能计算平台,提供高阶智能驾驶芯片、易用开放工具链及全栈自动驾驶解决方案,运用独创性“数据闭环定义芯片”方法学,助力车企构建低成本、大规模和自动化迭代能力,实现优质高效的自动驾驶量产交付,引领数据驱动时代的高阶智慧出行。创业公司中,如何使用Alluxio?从0-1使用 Alluxio 的过程(调研-部署-上生产)。实践经验分享。《 Alluxio 在自动驾驶模型训练中的应用与部署》下文为完整文字版分享内容。
2024-05-21 18:44:16 1067
原创 OPPO案例 | Alluxio在Data&AI湖仓一体的实践
在OPPO的实际应用中,我们将自研的Shuttle与Alluxio完美结合,使得整个Shuttle Service的性能得到显著提升,基本上实现了性能翻倍的效果。通过这一优化,我们成功降低了约一半的系统压力,同时吞吐量也直接翻倍。这样的结合不仅解决了性能问题,更为OPPO的服务体系注入了新的活力。完整文字版分享内容↓《Alluxio在Data&AI湖仓一体的实践》上图是OPPO目前的整体架构,主要分为两部分:1、Data2、AIOPPO在数据领域主要专注于结构化数据,即通常使用SQL处理的数据。
2024-03-22 13:38:47 1073
原创 数据本地性如何助力企业在云上实现高效机器学习
对于模型训练而言,为提高模型准确性,通常需要进行多个epoch训练,因此数据读取所花费的时间可能比实际用于模型训练计算所花费的时间要长得多。通过就近存放并访问所需数据,减少了数据移动上的耗时,可将更多的时间用于高效计算。√ 新的解决方案——Alluxio DORA,采用分布式缓存架构,利用去中心化的一致性哈希以及软亲和调度算法来优化数据存放,既能保持高可用性也能提高本地性;√ 包括直接访问远端数据、拷贝数据和使用本地缓存层在内的现有解决方案各有利弊,但都难以将提供的数据本地性提升到更大或者超大的规模;
2024-03-22 11:03:39 977
原创 超算互联网统一存储平台技术研究
还有一些复杂的应用场景,比如海洋气象遥感这些领域,他们本身的操作流程就比较复杂,可能数据存储在一个地方,需要流转到另一个地方进行数据的预处理,模拟仿真、模型训练等操作,但是这些操作又可能要在不同的平台上进行,甚至要在不同的区域进行,如果没有一个一体化的服务平台,很难行得通,很难精通所有平台的使用方式,这些问题和挑战也是我们打造超算互联网核心要解决的。再就是数据的预取,也就是数据缓存机制的优化,包括预取的设计、关联规则,还有比较重点的,我们想做分层存储,这是后续要做的事情。
2024-03-08 16:59:52 1051
原创 实录分享 | 央企大数据平台架构发展趋势与应用场景的介绍
现在我们上边的部署计算节点是358个,3PB的存储,56000多核的一个VCPU,目前跑在上面的智能应用大概4600+,上云的系统41个,以及我们现在连接的设备数是1664万,大量的设备已经把数据传输到云上。这个方案我认为是现在我们在央企里边比较核心的一套体系,能让全集团所有我们认为重要的数字化资源能够真正的统一集中,它的统一集中并不是要掌管它、监控它,而是让存储、计算、数据、应用、技术能力,能够在全集团范围内最大化流动起来,让大家最大化使用这些资源,这才是我们的最终目标。
2024-01-12 14:58:44 1366
原创 Alluxio AI 全新产品发布:无缝对接低成本对象存储 AI 训练解决方案
(2023 年 10 月 19 日,北京)Alluxio 作为一家承载各类数据驱动型工作负载的数据平台公司,现推出全新的 Alluxio Enterprise AI 高性能数据平台, 旨在满足人工智能 (AI) 和机器学习 (ML) 负载对于企业数据基础设施不断增长的需求。Alluxio Enterprise AI 平台可综合优化企业 AI 和分析基础设施的性能、数据可访问性、可扩展性和成本效益,助力生成式 AI、计算机视觉、自然语言处理、大语言模型和高性能数据分析等下一代数据密集型应用的发展。
2023-10-20 09:57:08 245
原创 实录分享 | Alluxio 在网易大数据的应用与优化
在 Impala 的文件句柄缓存机制中,Impala 读取文件时,会首先判断是否缓存了文件句柄,如果没有就调用 Open 方法向 Master 发起请求以获取文件的元数据信息(如文件的长度,文件块的位置信息等),此后会向 Worker 发起读取请求并调用 read 方法读取数据块,此后会调用 unbuffer 方法并缓存文件句柄,最后会返回读取的数据;网易利用了 UFS 对象存储的批量删除接口,通过合并删除请求批量删除对象,此时整体的 rpc 调用会减少很多,以此来优化 Rename 的整体性能。
2023-10-16 12:18:32 540
原创 实录分享 | Alluxio在AI/ML场景下的应用
其次就是我们不希望大家专门买一套硬件解决方案,在加入Alluxio之前,我所在的实验室是一直在做HPC的,HPC有一个很大的问题就是他的成本非常高,买1套HPC通常可以买10套Hadoop硬件,或者是云上的存储硬件,所以如果需要购买一套专有的硬件搭建AI Infra 架构,是事倍功半的,成本非常昂贵,看到这个场景后,我们提出还是希望可以直接在数据湖上构建AI和ML的数据通路,可以不更改存储系统,同时可以利用已有的,不需要额外购买IDMA这种硬件,就可以支撑训练的需求,这是我们的愿景。
2023-09-01 12:00:04 684
原创 突破大模型 | Alluxio助力AI大模型训练-成功案例(一)
其实从 2022 年的下半年我们就开始调研 Alluxio 了,但是因为种种原因,中途搁置了一段时间,导致 Alluxio 推迟到今年才上线。在我们调研与上线的过程中,Alluxio 社区是我们最强大的外援,为我们提供了海量的帮助。本次我们在算法场景对 Alluxio 小试牛刀,取得的结果令人十分惊喜。从性能上讲,在算法模型上线的场景,我们将 UnionStore 用 Alluxio 替换后,最高能够获得数十倍的性能提升;
2023-08-15 13:25:18 1017
原创 实录分享 | 使用Prometheus和Grafana监控Alluxio运行状况
在Grafana中,我们可以使用Prometheus采集的数据,用PromQL筛选出所需的数据,在Web UI界面可绘制种类丰富的图像,如折线图、柱状图、热图等。Prometheus 是一个开源的完整监控解决方案,其对传统监控系统的测试和告警模型进行了彻底的颠覆,形成了基于中央化的规则计算、统一分析和告警新模型。Prometheus 是一个开源的完整监控解决方案,其对传统监控系统的测试和告警模型进行了彻底颠覆,形成了基于中央化的规则计算、统一分析和告警新模型。可以在任何环境搭建我们的监控系统。
2023-08-14 15:14:06 863
原创 实录分享 | Alluxio Operator一体化部署方案
当我们创建了一个 Presto 资源后,自定义的controller仍然要监控资源的状态,如果资源的状态被更新了(比如Presto的镜像被更新了),那么它也需要根据更新之后的状态和当前状态进行对比,之后controller 要去做的事情就是自动更新它所创建的相关资源,而我们则无须关心要更新哪些内置的deployment和service。比如,基于前面Level 4所收集的指标进行分析后,发现应用在白天的请求较多,而晚上较少,则Operator可以自动根据请求的数目去做扩缩容,自动地去修改pod的副本数。
2023-06-25 17:27:58 696
原创 如何挖掘闲置硬件资源的潜力-PrestoDB缓存加速实践小结
以前使用PrestoSql的时候,遇到过同步缓存的线程死锁,原因是同步元数据的代码里有获取其他元数据实体缓存的逻辑,比如loadPartitionByName会先调用getTable方法,如果表缓存过期了且同步线程用满了就可能发生死锁。实现基于guava cache,将hive metastore的表,分区等元数据信息缓存在内存中,通过刷新时间,过期时间和缓存实体的上限数的配置来控制数据的有效性和容量上限。所以我们需要严格保证元数据有效性的集群,比如做批任务数据质量校验的,就不开启元数据缓存。
2023-05-09 19:27:06 909 1
原创 Alluxio跨集群同步机制的设计与实现
随着数据量的增长,这些数据的存储和访问方式也变得越来越复杂。例如,数据可能位于不同的存储系统中(S3、GCP、HDFS 等),也可能存储在云上或本地,或是位于不同的地理区域,还可能因为隐私或安全保护,被进一步隔离。此外,这些复杂性不仅体现在数据存储上,还包括如何将数据用于计算,例如,数据可能存储在云上,而计算则在本地进行。Alluxio 是一个数据编排平台,通过在 UFS 上提供统一的访问接口来降低此类复杂性,并通过提供数据本地性和缓存来提高计算性能。
2023-03-23 11:10:09 704
原创 如何借力Alluxio推动大数据产品性能提升与成本优化?
综合亚马逊云、阿里云的存储、数据传输和服务器成本,使用对象存储系统的开销要比HDFS低很多,而使用 Alluxio 可十分方便地接入各种存储系统,这无疑意味着可大大降低企业运营成本。想要了解更多关于Alluxio的干货文章、热门活动、专家分享,可点击进入【Alluxio智库】参考。
2023-02-09 15:09:14 562
原创 2023年五大趋势预测 | 大数据分析、人工智能和云产业展望
尽管数据共享目前尚未普及,处于早期阶段,但是,以数据共享为核心的生态体系,包括为数据消费者和数据提供者的基础设施、交易能力和服务,都将在 2023 年得到长足的发展。在云上部署数据密集型负载的企业需重新评估其云战略,更加关注成本优化,根据现有或新项目的ROI(投资回报率)和TCO(总拥有成本)来进一步审视企业的云开销。此外,随着大模型不断升级优化,研发人员将需要找到更多新的方法,用来把更多的大模型和实际的应用场景结合起来。越来越多的企业会优化其架构,以避免遭到超出预期的数据出口成本的冲击。
2023-01-19 10:15:32 2252
原创 Alluxio 2022技术干货年终大赏
2022,我们积累了很多应用案例,邀请了很多嘉宾参与了我们的社区直播活动17场主题活动(Alluxio Day、Meetup、Datafun Summit等)44位嘉宾44个主题(来自一线大厂的实战者)2000+分钟的分享时长(内容涵盖【金融】【互联网&科技】【大数据】【通信】【电商】【出行】【人工智能】等热门行业)点击标题即可观看。
2023-01-14 14:40:17 691
原创 从“少林寺”毕业后,我当上了开源社区“区长”
有了这层标准之后,提供计算的厂商和用户都可以轻松自如地做他们想要做的事情,而不用去关心具体的数据是怎么获得的,或者它是在一个什么样的服务里边怎样设置的。这一期间,我非常有幸能和很多世界级的专家、学者以及一流的同学一起共事,这个宝贵的经历使得我的专业水平以及对领域的认识都得到了相当大的提升。我作为Alluxio开源社区的co-chair,我的任务是如何把这个社区里的用户、代码修改的贡献者以及有能力去做整个项目演进的资深开发者很好的组织起来,使大家都能各取所需,并在项目中充分发挥自己的作用。
2023-01-04 11:51:34 286
原创 Uber应用分享 | 使用 Parquet Page Index 加速 Presto 查询
该值在列块统计范围 [-100, 1000]内,因此对于读取的判断为“yes”,但对于所有页统计信息而言,由于所有的范围都不包含要查找的值“700”,因此读取的判断结果为“No”, 跳过整列数据,不予读取。值得注意的是,我们测试用的Presto查询在经过排序的列上使用filter,例如:WHERE foo = bar,其中 foo 列是有序的,这也是 Parquet Page Index 降低读取量效果最显著的地方,如果不对 filter 依赖的列数据进行排序,则收益可能降低。
2022-12-28 16:22:14 725
原创 【B站】Presto + Alluxio:B站数据库系统性能提升实践
在日常线上生产环境中有大量的数据需要被访问,为了保证数据同步以及查询效率,需要耗费较大的资源,同时,很多被查询和访问的数据是重复的,这对数据库系统造成极大压力。
2022-12-28 15:51:32 1196 1
原创 如何用Alluxio加速云上深度学习训练?
> Alluxio是一个java开源项目,是云上的关于数据分析以及深度学习训练的一个数据抽象层。>> 使用Alluxio,可以对数据应用以及数据源进行无缝连接。>> Alluxio的一个很重要功能是能够对数据进行读写缓存,另一方面也可以对元数据进行本地缓存。>> Alluxio可以把来自不同的远端存储系统,以及分布式文件系统的数据都挂载到Alluxio统一的命名空间之内。通过Alluxio POSIX API,把这些数据变成类似于本地文件的形式,提供给各种训练任务。
2022-12-28 15:45:13 752
原创 【蚂蚁】Alluxio在蚂蚁集团大规模训练中的应用
首先是我们为什么要引入Alluxio,其实我们面临的问题和业界基本上是相同的:√ 第一个是存储IO的性能问题,目前gpu的模型训练速度越来越快,势必会对底层存储造成一定的压力,如果底层存储难以支持目前gpu的训练速度,就会严重制约模型训练的效率。√ 第二个是单机存储容量问题,目前我们的模型集合越来越大,那么势必会造成单机无法存放的问题。那么对于这种大模型训练,我们是如何支持的?
2022-12-28 15:34:21 730
转载 从博士论文到被各大厂应用,Alluxio 如何走过 7 年创业路
从一个论文项目到如今被市值最大的十家公司中的七家使用,李浩源用了九年的时间。那么,Alluxio 这样一个基础软件领域的创企,是如何从零成长至取得如今成绩?Alluxio 又会如何应对当前动荡的市场呢?
2022-12-06 14:12:56 411
原创 Alluxio 2.9新版发布 | 重塑架构,支持大规模多租户环境
2022年11月17日,全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.9版本,新版本立即可用。
2022-11-21 20:49:42 539
原创 技术分享 | Presto性能对比测试:Kubernetes部署 VS 物理机部署
Presto是开源分布式SQL查询引擎,可以对从GB到PB级大小的数据源进行交互式分析查询。Presto支持Hive、Cassandra、关系型数据库甚至专有数据存储等多种数据源,允许跨源查询。
2022-10-11 11:40:13 1114
原创 Alluxio与北京大学计算机学院签署合作框架协议,推动产学研深度融合
Alluxio与北京大学计算机学院达成合作框架协议,双方将在学术研究、人才培养、联合实验室、开源社区共建等方面展开深入合作,并将成立“云原生数据编排服务系统联合实验室”。
2022-09-30 16:39:29 245
原创 【Iceberg+Alluxio】助力加速数据通道(下篇)
在【Iceberg + Alluxio 助力加速数据通道】系列活动中,本次主题演讲将分享开源分布式存储系统Alluxio与Iceberg的基本概念、集成方案与未来的结合方向。
2022-09-28 14:25:16 979
原创 【Iceberg+Alluxio】助力加速数据通道(上篇)
在【Iceberg + Alluxio 助力加速数据通道】系列活动中,本次主题演讲将分享开源分布式存储系统Alluxio与Iceberg的基本概念、集成方案与未来的结合方向。
2022-09-28 14:00:50 1561
原创 Presto on Alluxio By Alluxio SDS 单节点搭建
利用 Alluxio SDS,底层的 HMS 中的分区表的 location 无需修改,也就是 HMS 没有任何改变,其它计算引擎完全没有变化。而 Presto 通过 Alluxio SDS 提供的元数据服务,可以进行一些定制化的改造,比如某些分区或表不经Alluxio访问,可以返回 原始的 location 信息。
2022-09-27 18:06:39 364 1
原创 Alluxio Local Cache 监控指南
随着云计算在基础设施领域的市场份额持续上升,主流数据分析引擎纷纷选择独立扩展存储、计算来适配云基础设施,并以此为云提供商降低成本。
2022-09-27 16:23:16 600
原创 帮助 Meta 解决 Presto 中的数据孤岛问题
Raptor 是用来支持Meta(以前的Facebook)中的一些关键交互式查询工作负载的Presto连接器(presto-raptor)。
2022-09-26 19:23:33 467
空空如也
如何通俗地理解「分布式系统」,它解决了哪些问题,有什么优缺点?
2023-05-19
块存储、文件存储、对象存储这三者的本质差别是什么?
2022-07-01
hadoop和大数据、spark的关系该怎么理解?
2022-06-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人