- 博客(120)
- 问答 (2)
- 收藏
- 关注
原创 2023年五大趋势预测 | 大数据分析、人工智能和云产业展望
尽管数据共享目前尚未普及,处于早期阶段,但是,以数据共享为核心的生态体系,包括为数据消费者和数据提供者的基础设施、交易能力和服务,都将在 2023 年得到长足的发展。在云上部署数据密集型负载的企业需重新评估其云战略,更加关注成本优化,根据现有或新项目的ROI(投资回报率)和TCO(总拥有成本)来进一步审视企业的云开销。此外,随着大模型不断升级优化,研发人员将需要找到更多新的方法,用来把更多的大模型和实际的应用场景结合起来。越来越多的企业会优化其架构,以避免遭到超出预期的数据出口成本的冲击。
2023-01-19 10:15:32
1107
原创 Alluxio 2022技术干货年终大赏
2022,我们积累了很多应用案例,邀请了很多嘉宾参与了我们的社区直播活动17场主题活动(Alluxio Day、Meetup、Datafun Summit等)44位嘉宾44个主题(来自一线大厂的实战者)2000+分钟的分享时长(内容涵盖【金融】【互联网&科技】【大数据】【通信】【电商】【出行】【人工智能】等热门行业)点击标题即可观看。
2023-01-14 14:40:17
382
原创 从“少林寺”毕业后,我当上了开源社区“区长”
有了这层标准之后,提供计算的厂商和用户都可以轻松自如地做他们想要做的事情,而不用去关心具体的数据是怎么获得的,或者它是在一个什么样的服务里边怎样设置的。这一期间,我非常有幸能和很多世界级的专家、学者以及一流的同学一起共事,这个宝贵的经历使得我的专业水平以及对领域的认识都得到了相当大的提升。我作为Alluxio开源社区的co-chair,我的任务是如何把这个社区里的用户、代码修改的贡献者以及有能力去做整个项目演进的资深开发者很好的组织起来,使大家都能各取所需,并在项目中充分发挥自己的作用。
2023-01-04 11:51:34
39
原创 Uber应用分享 | 使用 Parquet Page Index 加速 Presto 查询
该值在列块统计范围 [-100, 1000]内,因此对于读取的判断为“yes”,但对于所有页统计信息而言,由于所有的范围都不包含要查找的值“700”,因此读取的判断结果为“No”, 跳过整列数据,不予读取。值得注意的是,我们测试用的Presto查询在经过排序的列上使用filter,例如:WHERE foo = bar,其中 foo 列是有序的,这也是 Parquet Page Index 降低读取量效果最显著的地方,如果不对 filter 依赖的列数据进行排序,则收益可能降低。
2022-12-28 16:22:14
390
原创 【B站】Presto + Alluxio:B站数据库系统性能提升实践
在日常线上生产环境中有大量的数据需要被访问,为了保证数据同步以及查询效率,需要耗费较大的资源,同时,很多被查询和访问的数据是重复的,这对数据库系统造成极大压力。
2022-12-28 15:51:32
481
1
原创 如何用Alluxio加速云上深度学习训练?
> Alluxio是一个java开源项目,是云上的关于数据分析以及深度学习训练的一个数据抽象层。>> 使用Alluxio,可以对数据应用以及数据源进行无缝连接。>> Alluxio的一个很重要功能是能够对数据进行读写缓存,另一方面也可以对元数据进行本地缓存。>> Alluxio可以把来自不同的远端存储系统,以及分布式文件系统的数据都挂载到Alluxio统一的命名空间之内。通过Alluxio POSIX API,把这些数据变成类似于本地文件的形式,提供给各种训练任务。
2022-12-28 15:45:13
444
原创 【蚂蚁】Alluxio在蚂蚁集团大规模训练中的应用
首先是我们为什么要引入Alluxio,其实我们面临的问题和业界基本上是相同的:√ 第一个是存储IO的性能问题,目前gpu的模型训练速度越来越快,势必会对底层存储造成一定的压力,如果底层存储难以支持目前gpu的训练速度,就会严重制约模型训练的效率。√ 第二个是单机存储容量问题,目前我们的模型集合越来越大,那么势必会造成单机无法存放的问题。那么对于这种大模型训练,我们是如何支持的?
2022-12-28 15:34:21
459
转载 从博士论文到被各大厂应用,Alluxio 如何走过 7 年创业路
从一个论文项目到如今被市值最大的十家公司中的七家使用,李浩源用了九年的时间。那么,Alluxio 这样一个基础软件领域的创企,是如何从零成长至取得如今成绩?Alluxio 又会如何应对当前动荡的市场呢?
2022-12-06 14:12:56
51
原创 Alluxio 2.9新版发布 | 重塑架构,支持大规模多租户环境
2022年11月17日,全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.9版本,新版本立即可用。
2022-11-21 20:49:42
258
原创 技术分享 | Presto性能对比测试:Kubernetes部署 VS 物理机部署
Presto是开源分布式SQL查询引擎,可以对从GB到PB级大小的数据源进行交互式分析查询。Presto支持Hive、Cassandra、关系型数据库甚至专有数据存储等多种数据源,允许跨源查询。
2022-10-11 11:40:13
395
原创 Alluxio与北京大学计算机学院签署合作框架协议,推动产学研深度融合
Alluxio与北京大学计算机学院达成合作框架协议,双方将在学术研究、人才培养、联合实验室、开源社区共建等方面展开深入合作,并将成立“云原生数据编排服务系统联合实验室”。
2022-09-30 16:39:29
59
原创 【Iceberg+Alluxio】助力加速数据通道(下篇)
在【Iceberg + Alluxio 助力加速数据通道】系列活动中,本次主题演讲将分享开源分布式存储系统Alluxio与Iceberg的基本概念、集成方案与未来的结合方向。
2022-09-28 14:25:16
594
原创 【Iceberg+Alluxio】助力加速数据通道(上篇)
在【Iceberg + Alluxio 助力加速数据通道】系列活动中,本次主题演讲将分享开源分布式存储系统Alluxio与Iceberg的基本概念、集成方案与未来的结合方向。
2022-09-28 14:00:50
780
原创 Presto on Alluxio By Alluxio SDS 单节点搭建
利用 Alluxio SDS,底层的 HMS 中的分区表的 location 无需修改,也就是 HMS 没有任何改变,其它计算引擎完全没有变化。而 Presto 通过 Alluxio SDS 提供的元数据服务,可以进行一些定制化的改造,比如某些分区或表不经Alluxio访问,可以返回 原始的 location 信息。
2022-09-27 18:06:39
71
原创 Alluxio Local Cache 监控指南
随着云计算在基础设施领域的市场份额持续上升,主流数据分析引擎纷纷选择独立扩展存储、计算来适配云基础设施,并以此为云提供商降低成本。
2022-09-27 16:23:16
346
原创 帮助 Meta 解决 Presto 中的数据孤岛问题
Raptor 是用来支持Meta(以前的Facebook)中的一些关键交互式查询工作负载的Presto连接器(presto-raptor)。
2022-09-26 19:23:33
225
原创 【联通】数据编排技术在联通的应用
本次分享内容将围绕四个方面讲述Alluxio数据编排技术在联通的应用,主要围绕缓存加速、存算分离、混合负载以及轻量级分析四个不同的使用场景进行分享
2022-09-13 13:25:19
589
1
原创 B站基于Iceberg+Alluxio助力湖仓一体项目落地实践
本期分享的题目是B站基于Iceberg + Alluxio 助力湖仓一体项目落地实践,内容包含诸多技术细节
2022-08-24 11:51:43
461
原创 Apache顶级项目Ranger和Alluxio的最佳实践(附教程)
Alluxio统一了本地和跨云环境下的数据孤岛,实现数据本地性、可访问性和弹性,从而降低大数据和人工智能/机器学习(AI/ML)工作负载的管理数据和访问数据的难度。
2022-08-23 10:16:48
958
6
原创 使用 Presto 和 Alluxio 在 AWS 上搭建高性能平台来支持实时游戏服务
Presto+Alluxio的不是在所有情况下的性能都显著优于S3
2022-08-05 17:04:29
815
原创 【合集- 行业解决方案】如何搭建高性能的数据加速与数据编排平台
包含腾讯、B站、网易、联通、兴业银行、Kyligence、文远知行等多个行业的多个大厂
2022-06-30 16:40:12
304
原创 金山云团队分享 | 5000字读懂Presto如何与Alluxio搭配
金山云-企业云团队在交互查询场景下对Presto与Alluxio相结合进行了一系列测试,并总结了一些Presto搭配Alluxio使用的建议。
2022-06-24 10:56:15
305
原创 技能速成!教你10分钟内在电脑上配置运行Hive Metastore和Presto
本教程将展示如何一步一步安装并配置Presto和Hive MetaStore,从而查询存储在公有S3 bucket中的数据。
2022-06-17 13:50:35
197
翻译 Meta公司内部项目-RaptorX:将Presto性能提升10倍
降低查询延迟,让Presto的查询性能大大超越原生(vanilla)Presto
2022-06-15 10:09:36
218
转载 InfoWorld文章丨将数据编排技术用于AI模型训练
人工智能(AI)和机器学习工作负载依赖大型数据集,并且对数据吞吐量有较高的要求,两者都可以通过优化数据工作流来实现。
2022-06-05 15:39:05
307
原创 Uber实战案例:基于Alluxio实现Presto缓存
01 Uber的业务场景如上图所示,在Uber,所有的决策都与数据有关。Presto以及其他各种查询引擎在Uber是被广泛使用的。例如,运营团队在Dashboard等服务中大量使用了Presto,而UberEats和市场团队也依赖于这些查询结果来确定价格。此外,Presto也在Uber的合规部、增长营销部门、ad-hoc数据分析等场景下使用。上图展示了Uber内部的一些重要数据。总的来说,目前Presto在Uber内部有12K的月活跃用户,每天要处理400K的查询并且要处理超过50PB的数据。在基.
2021-12-13 11:46:40
925
空空如也
块存储、文件存储、对象存储这三者的本质差别是什么?
2022-07-01
hadoop和大数据、spark的关系该怎么理解?
2022-06-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人