蚂蚁金服资深技术专家周俊：大规模机器学习在蚂蚁+阿里的应用

最新推荐文章于 2024-08-01 16:06:27 发布

weixin_34405354

最新推荐文章于 2024-08-01 16:06:27 发布

阅读量674

点赞数

文章标签：大数据移动开发数据库

原文链接：https://yq.aliyun.com/articles/58898

版权

8月30-31日20:00-21:30，一场别开生面的技术大会—— “蚂蚁金服&阿里云在线金融技术峰会”将在线举办。本次将聚焦数据库、应用架构、移动开发、机器学习等热门领域，帮助金融业技术开发者深入解析互联网应用的前沿应用与技术实践。

蚂蚁金服&阿里云在线金融技术峰会专题： https://yq.aliyun.com/activity/109

峰会统一报名链接：http://yq.aliyun.com/webinar/join/38

来自蚂蚁金服的资深技术专家周俊，将在本次峰会中为大家带来《大规模机器学习在蚂蚁+阿里的应用》的分享，下面是议题详情，供大家参考。

议题名称：《大规模机器学习在蚂蚁+阿里的应用》

议题简介：随着移动互联网的快速普及和数据收集的便利性，越来越多的数据被存储到分布式系统，大量的数据等待被挖掘、分析和利用，从而提供给用户更个性化的服务。

大数据给机器学习带来了巨大的机遇和挑战，一方面，因为模型规模太大（百亿甚至千亿特征），单机内存无法装载，需要考虑各种分布式策略；另外在进行模型迭代时，需要考虑稳定性、可扩展性、计算/通信效率等多个核心问题，才有可能在浮沙上盖楼成功。因此面向大数据量的机器学习，通常需要设计分布式系统跟稳健的算法来处理上千亿特征和几十T甚至到几个P的数据，这里的系统+算法的结合，统称为大规模机器学习。

如何结合现有分布式系统的优点，克服它的“特点”（同步、慢机等），通过普通CPU获得高可靠、高可扩展、高效率的大规模机器学习平台？如何结合具体的蚂蚁+阿里业务，沉淀优秀的大规模机器学习算法？我们将分享大规模机器学习的技术与过程，介绍大规模机器学习面临的问题以及在蚂蚁+阿里的应用。

本专题主要涵盖：
1）大规模机器学习的设计理念以及优化。
2）大规模机器学习在蚂蚁+阿里的应用，尤其如何更好满足金融业务场景。
3）大规模机器学习的未来发展。

听众受益：

1) 面对工业级别数据量，把算法打造成工业级别的经验。

2) 系统 + 算法怎样融合，提升算法+工程技术视野。

3) 构建大规模机器学习平台，避免一些坑，加速应用。

关于分享者：周俊（花名：西亭），先后参与过XLib(阿里通用机器学习库)、飞天(阿里分布式操作系统）、ODPS(阿里数据处理平台)以及大规模机器学习平台等几大分布式系统+算法平台的开发，并将相关算法成功应用于搜索、推荐、广告等领域。现在负责蚂蚁大规模机器学习的研发，致力于人工智能服务好更多的金融业务。

以下为采访正文：

云栖社区：怎么利用机器学习来为公司带来收益？

周俊：数据驱动，现在已经是各个公司达成的共识。利用数据+AI来决策，可实现精准服务。个性化能带来的收益，包括提升用户粘性、用户点击率等。作为算法工程师，可以快速利用各种工具来搭建来平台，使用机器学习算法，来做个性化服务，来提升用户体验，为公司带来收益。怎么快速实现呢?第一，快速理解业务，抽取相关的特征跟数据；第二，选择合适的机器学习算法，利用收集到的数据，快速训练，得到模型；第三，进行ABTest，确定算法效果。通过这三步，建立一个Pipeline，快速迭代，探索一条适用于公司的技术方案。这中间对于业务的理解，需要反复迭代，达到一个比较好的效果。业务 + 算法应用,驱动公司业务成长。

云栖社区：面对工业级别数据量，怎样把算法打造成工业级别？

周俊：一方面需要构建对应的训练系统，进行大量的训练+测试，验证各种idea，让系统在通信、计算、故障处理等技术点，做到尽可能稳健；同时，对算法进行大量优化，让其可以更快、更强，考虑算法的分布式化策略，让其可以更好地利用训练系统的资源实现最大化提速，对算法进行一些适当优化，哪怕是牺牲一些精度来进一步提速。系统跟算法要紧密配合，围绕网络、计算/通信效率、故障、慢机等技术难点，设计解决方案。利用真实业务数据，进行压力测试。对于待优化点，可以从算法+系统两方面进行优化，各个点都做到极致，从而打造一个工业级别的算法。

云栖社区：机器学习技术上，蚂蚁有哪些独特的技术？

周俊：蚂蚁对机器学习技术投入非常大，同时也积极在各个业务上进行尝试，鼓励创新。一方面沉淀下来整套机器学习流程：数据埋点、日志拼接、样本处理、大规模训练、预测等，各个流程无缝对接，开发效率非常高，快速尝试各种新算法，快速调优，来最大化业务效果。算法上，我们对算法本身进行了优化，让其加速10倍以上（相对一些开源的实现），各类算法都有对应的高效实现；系统上，沉淀了通用的机器学习算法平台，可以对算法进行扩展，使得算法开发者可以就focus在算法本身，加快算法开发速度。通过系统+算法的分工和合作，最大化效率，快速在业务上尝试，拿到对应的效果。

云栖社区：能否简单介绍一下阿里+蚂蚁大规模机器学习的发展历程？

周俊：阿里+蚂蚁内部有大量的算法工程师，这些工程师在完成业务目标的同时，都在思考怎样将共性的东西沉淀下来，因此内部沉淀下来有XLib（阿里通用机器学习平台）、大规模机器学习平台，这两者有一个比较好的结合点，XLib里面有大量的数据处理、统计分析、机器学习算法等，大规模机器学习平台面向更大的数据、特征规模，专门解决这一类特定的问题，并将技术应用到搜索、推荐、广告、双十一等领域，同时这两者又将算法通过PAI平台输出到外部，因此是个有机的整体，逐步在提升效率、规模等，更好服务用户。中间也踩过非常多的坑，比如稀疏通信、同步/异步算法调试等等，这些都是一个新生系统，必然会遇到的，克服之后，对系统+算法的理解会更上一层楼。

weixin_34405354

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
蚂蚁金服资深技术专家周俊：大规模机器学习在蚂蚁+阿里的应用

8月30-31日20:00-21:30，一场别开生面的技术大会—— “蚂蚁金服&阿里云在线金融技术峰会”将在线举办。本次将聚焦数据库、应用架构、移动开发、机器学习等热门领域，帮助金融业技术开发者深入解析互联网应用的前沿应用与技术实践。蚂蚁金服&阿里云在线金融技术峰会专题：https://yq.aliyun.com/activity/1...
复制链接

扫一扫