Alluxio Meetup 2018.10.28北京进行，欢迎交流

最新推荐文章于 2024-08-01 17:35:42 发布

代立冬

最新推荐文章于 2024-08-01 17:35:42 发布

阅读量842

点赞数

分类专栏： ●Olap即时分析文章标签： Alluxio Meetup meetup

本文链接：https://blog.csdn.net/oDaiLiDong/article/details/83341894

版权

●Olap即时分析专栏收录该内容

14 篇文章 2 订阅

订阅专栏

＃搜狗如何将Spark Shuffle迁移到上千台Alluxio机器集群，服务知识图谱？

＃七牛云如何用Alluxio在云端搭建通用深度学习平台？

＃京东又是如何定制基于普雷斯托的查询平台？

欢迎大家参加2018.10.28（本周日）Alluxio Meetup北京站。与Alluxio公司的创始人兼CEO李浩源面对面，交流Alluxio的发展历程;与多位业绩大咖一起，讨论优秀案例???

欢迎点击链接报名！

http://www.huodongxing.com/event/8461149642800?td=9482520370698

时间：10月28日太阳13：00-18：30

地点：北京朝阳酒仙桥东路9号电子城科技园-A1写字楼

议题介绍：

议题一14：00-14：45 Alluxio的演化之路

讲者介绍：

李浩源，Alluxio公司的创始人和CEO。博士毕业于加州大学伯克利分校，在AMPLab读博期间联合创造了开源的内存级虚拟分布式存储系统Alluxio（曾用名Tachyon）。此外，他是Apache Spark项目的创始提交者。李浩源硕士和本科分别毕业于康奈尔大学和北京大学。

内容摘要：

未来是数据的时代，数据的高效管理，存储以及访问的抽象无疑是这个时代的基石。开源分布式虚拟数据系统Alluxio致力于为大数据，机器学习，以及人工智能提供简单高效的数据抽象，便捷的数据共享以及高速的I / O，同时让应用与数据的持久化隔离并提供丰富的存储系统选择。经过数年的发展，Alluxio由最初加州大学伯克利分校AMPLab里仅有数名博士生以及研究人员参与的研究项目原型，发展到超过800名代码贡献者（Alluxio 1.8发布时数据），并部署在包括腾讯，百度，京东和双西格玛，巴克莱银行等上百家中外行业领导者的生产环境中，成为数据平台和数据基础架构的一个重要组成部分。

Alluxio项目创始人李浩源将回顾自己从在大学实验室中创立科研项目，到融资并成立公司以支持项目的落地和发展，并一路推动社区发展至今的演化历程，并分享Alluxio项目在各个不同行业里的成功案例。

议题二14：45-15：30展望Alluxio 2.0

讲者介绍：

范斌，Alluxio公司的创始成员，Alluxio开源项目的PMC成员。加入Alluxio项目之前，范斌就职于Google Mountain View。范斌博士毕业于卡内基梅隆大学（Carnegie Mellon University）计算机系，博士期间从事分布式系统算法和实现，是CuckooFilter以及高性能的多线程KV库libcuckoo的作者。有多项专利并在SIGCOMM，SOSP，NSDI等顶级学术会议上发表论文。

内容摘要：

Alluxio社区在2018年9月发布1.8.1之后，已经开始着手设计，试验并实现下一代重大升级版本Alluxio 2.0。范斌将分享Alluxio 2.0系统着眼的功能，面临的挑战，介绍开发者社区对于对RPC系统升级，完整支持异步写，数据副本的管理，以及自建的HA模式（无需依赖动物园管理员或者HDFS）等重要功能的目标，设计和进度。同时，作为Alluxio开源项目的核心开发者，范斌还将分享在过去数年中Alluxio团队总结的一些分布式系统开发的经验教训及最佳工程实践。

议题三15：30-16：15 Alluxio在京东Ad Hoc平台的应用 - 对JDPresto的加速

讲者介绍：

张芒，京东大数据平台计算引擎负责人，2015年年加入京东，主要负责即席平台的搭建，架构升级及日常维护工作。开源软件爱好者，目前是Hadoop的，蜂巢，转眼间，Alluxio的贡献者

内容摘要：

京东自组织平台自2017年开始使用alluxio，目前已部署超过500个物理节点，每天加载超过70T的数据，alluxio为自组织平台部分的Presto应用带来了10X的性能提升和稳定的亚秒级查询体验;基于alluxio实现独立的shuffle service服务，根据任务级别和任务类型（Spark，MR）决定shuffle数据存储等级（RAM，SSD，HDD）

议题四16：15-17：00 Alluxio在七牛云深度学习训练平台AVA上的应用

讲者介绍：

谢博文，七牛云研发工程师，硕士毕业于上海交通大学，目前专注于为深度学习训练平台提供稳定高性能的存储系统。

内容摘要：

七牛云Atlab实验室专注于机器视觉方向的深度学习研究。我们团队针对深度学习训练打造了高效的训练平台AVA，深度整合了存储和计算资源。为了提高算法工程师训练模型的效率，我们使用Alluxio Alocityio进行改造，实现了文件读写性能50％以上的提升，同时显着降低了存储系统的成本和容量风险。

议题五17：00-17：45 Alluxio内存文件系统在搜狗的实践

讲者介绍：

肖邦，搜狗大数据平台高级开发工程师，主要负责致力于火花/蜂房计算引擎的开发与性能优化，结合Alluxio内存文件系统提升计算稳定性等工作

内容摘要：

本次分享主要包括了Spark shuffle基于Alluxio的优化，以及基于Alluxio对于临时表的性能改进：1。在搜狗大量的数据分析，知识图谱的数据制作使用Spark / SparkSQL来进行并行计算，大部分由于Spark On Yarn存在各类问题导致业务SLA水平仅为96％，结合Alluxio内存文件系统，我们将Spark业务的稳定性水平SLA提升到99.22％，广泛应用于数据分析以及高优先级业务中; 2.同时在搜狗存在部分任务使用蜂巢/火花临时表作为中间计算，使用Alluxio性能提升22.2％。目前Alluxio部署1000+机器上，运行了半年时间。

议题六17：45-18：30问答，交流