大咖眼中的AI开源|王宇博:四位一体,构建开源机器学习生态系统

6月26日,亚马逊云科技Community Day在上海举办。亚马逊云科技首席开发者布道师、资深数据科学家、资深应用科学家以及亚马逊云科技Machine Learning Hero悉数到场,针对AI开源的技术趋势及落地实践项目进行分享和讨论。

本期,将带来亚马逊云科技首席开发者布道师王宇博对亚马逊云科技在开源学习领域的贡献和实践话题的分享。在亚马逊云开发者公众号后续的内容中也会带来更多的嘉宾分享,感兴趣的伙伴们可以持续关注!

王宇博:亚马逊云科技在开源机器学习领域的贡献和实践

开源的概念源于上世纪80年代,近年来,随着机器学习和云计算的不断发展,开源逐渐成为众多开发者谈论的核心,其重要性显著提升。目前,前五大开源贡献者中,四家是云计算厂商,前十大开源贡献商中,七家是云计算厂商。王宇博表示,云计算是开源背后重要的推手。云计算引领着开源向前,而开源又进一步促进云计算的发展。

作为云计算服务平台,亚马逊云科技本着用户至上的理念,通过提供一系列云端和开源工具的集成与融合,满足开发者利用开源工具在云端进行快速生产实践的需求。此外,当开发者希望通过一些新的工具实现新的想法时,亚马逊云科技也会主动构建并贡献一系列开源代码,帮助开发者实现各种各样的需求。

据王宇博介绍,亚马逊云科技内部的开源贡献者数量及开源项目数量逐年攀升。目前,亚马逊云科技开源仓库达2500个以上,涵盖数据、分析、安全、机器学习等众多领域。很多项目围绕着开源进行,例如基于OpenSearch构建的开源分析平台;基于Firecracker构建的容器无服务器体系架构等。亚马逊云科技坚信云和开源结合在一起,能够更加快速的为开发者赋能,也能够进行更多交流互动,帮助开发者在云上把开源用好。

谈到开源和机器学习领域的结合,王宇博认为,不仅仅要关注到开源如何引领机器学习的发展,更主要的是关注到开发者在实际生产实践中面临的问题,让更多开发者学习掌握开源技术,并快速构建机器学习应用。他分别从产品、研究、赋能、社区四个维度概括了亚马逊云科技在构建开源机器学习生态系统中所做出的努力。

首先是产品,在亚马逊云端有一系列机器学习、人工智能的产品,很多是基于开源项目来进行构建的,亚马逊云科技希望通过这些产品来加速开源的机器学习在生产实践活动中的快速应用。

其次是研究,亚马逊云科技在全球各地都有非常多从事人工智能和机器学习方面研究的科学家,他们不断在学术领域做出贡献,发表了众多前沿论文,亚马逊云科技希望这些研究能与生产实践相结合,快速落地,为开发者构建良好的环境。

第三是赋能,亚马逊云科技认为人工智能、机器学习应该被每位开发者掌握在手中,通过一系列产品和能力帮助大家快速上手、学习,使得每个人都能够在开源和机器学习中获得更多成长机会。

最后是社区,亚马逊云科技通过构建机器学习社区来帮助开发者更深入的了解开源和机器学习,使其更快、更好的向前推进和发展。

针对这四点,王宇博在Community Day的现场进行了四位一体的详细介绍。

亚马逊云科技的机器学习产品提供了非常完整的堆栈,从框架,平台到SaaS化应用,每个领域都有很多产品和服务,来帮助开发者进行快速构建。所有的机器学习云端服务都基于亚马逊云科技构建的坚实开源基础。

从全球范围看,亚马逊云科技是开发者使用开源框架TensorFlow和PyTorch构建应用的首选平台。Amazon SageMaker可以帮助开发者进行机器学习的快速落地。Amazon SageMaker扩展机器学习有两种方法,分别是自带训练脚本和自带Docker容器,两种方式都很简单。Amazon SageMaker本身运用到很多容器技术,但对于Amazon SageMaker用户来讲并不需要特别去了解或者操作底层的架构。开发者可自带训练脚本,使用和本地或其他环境中几乎完全的相同代码,只需要进行参数传递并生成一系列文件,同时从容器的镜像仓库拉取标准的镜像,通过这种方式把自带脚本和容器结合在一起,达到快速良好的训练效果。Amazon SageMaker也支持自带Docker容器,把脚本集成到自建的容器中,同时在容器仓库进行发布,并且进行训练,也可以获得非常良好的效果。目前而言,使用自带脚本是非常简单的方式。开发者可以在本地进行开发和测试,在云端进行分布式的训练和部署,也可以利用云端的功能来快速的进行迭代,从而构建一个更好的机器学习的应用。

另外Amazon SageMaker本身也自带很多的能力,比如Amazon SageMaker自动化的调优能力,可以对超参进行快速调整,同时托管的Spot方式中可以为开发者极大节省机器学习训练模型的成本。

王宇博也对亚马逊云科技发起的一些开源机器学习项目进行了介绍。

第一是Gluon,它是开源的深度学习接口,使开发人员能够更轻松、更快的构建机器学习模型,而不会影响性能。亚马逊云科技希望通过工具箱及工具集帮助更多开发者快速使用领先的算法、论文预训练模型。在计算机视觉、自然语言处理等领域,亚马逊云科技的工具包GluonCV,GluonNLP,GluonTS都重现了顶级会议上的SOTA结果。亚马逊把这些工具包提供给更多客户和开发者使用。

第二个是Deep Java Library,很多独立的开发者,经常用Java来进行深度学习开发的。亚马逊云科技希望通过Deep Java library,开发者可以便携、高效的使用Java语言进行机器学习的训练和部署。目前Deep Java Library提供全引擎的支持,同时也提供高达70多个预训练模型。

另外,王宇博还从其他几个领域进行了介绍。

第一是Jupyter,它帮助开发者使用代码和数据进行思考,然后围绕代码和数据构建叙述,将这些代码和数据驱动的见解传达给其他人。亚马逊云科技不断对jupyter的使用体验进行优化,如针对企业级开发者提供笔记本共享的功能。同时,亚马逊云科技也在不断向Jupyter社区贡献,Jupyter指导委员会成员目前任职于亚马逊云科技,帮助Jupyter在开源和云端进行进一步的整合。

第二是Amazon SageMaker Clarify,它基于开源产品进行的构建,为机器学习开发人员提供更深入的训练数据和模型,以便他们能够识别和限制偏差并解释预测。

第三是Penny Lane,亚马逊云科技去年底开始参与到Penny Lane开源项目当中。目前Penny Lane在云端的Amazon Braket上已经可以运行。亚马逊云科技希望能够通过云端,使得量子计算和机器学习能够有更好的融合。

此外,亚马逊云科技也提供很多寓教于乐的工具和动手实践的工具,用开源解决方案帮助大家开启机器学习之旅。

王宇博说:“动手是对于开发者来说是非常关键的过程,亚马逊云科技通过一系列的技术引领、技术指导和技术讲座来带动整体开发者社区蓬勃向上发展,激起良好的技术讨论氛围,来为开发者提供更多的帮助和影响。”

写在最后

多年来,亚马逊云科技在人工智能领域积累了众多项目及实践经验,并一直致力于与全球开发者共创,希望为人工智能领域带来新的活力。2021亚马逊云科技中国峰会上海站将在7月21日正式开启,大会将以“构建新格局,重塑云时代”为题,携手云计算行业领先的技术践行者,共同分享云时代重塑和构建的故事。同时,上海站也只是本次峰会的先锋官,在8月的北京,9月的深圳,亚马逊云科技中国峰会还将继续开启。

该峰会覆盖一百多个技术专场,设有人工智能领域技术分论坛,将围绕构建数据库、大数据与智能图仓等领域为大家带来上手实操、技术架构等方面的内容,同时会针对一些客户案例和实践为大家带来技术解读。此外,现场还设有专门的开源分论坛,将邀请众多大咖为大家带来精彩的分享,点击下方图片即可报名参与!️️️️️️????️️️️️️

亚马逊云科技【先行者·人工智能技术应用大赛】,也将跟随2021亚马逊云科技中国峰会同步在上海开赛。大赛分初赛和决赛两场,初赛在北京,决赛在上海,比赛设置丰厚的奖金。大赛报名工作现已启动!身处人工智能领域的开发者们,面对众多工具的到来你有没有小试牛刀的冲动?对于这些工具的应用落地又有哪些奇思妙想?你希望用这些工具为所在行业带来哪些变化呢?感兴趣的话,点击阅读原文链接或扫面下方二维码,赶快报名参赛,开发属于你的项目!


听说,点完下面4个按钮

就不会碰到bug了!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值