《分布式机器学习:算法、理论与实践》

人工智能和大数据时代,解决最有挑战性问题的主流方案是分布式机器学习!为了帮助机器学习从业者更加深入地了解分布式机器学习领域的基本框架、典型算法、理论和系统,帮助大家在这个领域打下扎实基础,微软亚洲研究院机器学习核心团队撰写《分布式机器学习:算法、理论与实践》一书,全面介绍了分布式机器学习的现状,深入分析其中的核心技术问题,并且讨论该领域未来的发展方向。

由微软亚洲研究院机器学习核心团队潜心之作!鄂维南院士、周志华教授倾心撰写推荐序!

 

全书共12章。

第1章是绪论,向大家展示分布式机器学习这个领域的全景。

第2章介绍机器学习的基础知识,其中涉及到的基本概念、模型和理论,会为读者在后续章节中更好地理解分布式机器学习的各项技术奠定基础。

第3章到第8章是本书的核心部分,向大家细致地讲解分布式机器学习的框架,及其各个功能模块。其中第3章对整个分布式机器学习框架做综述,而第4章到第8章则针对其中的数据与模型划分模块、单机优化模块、通信模块、数据与模型聚合模块分别加以介绍,展示每个模块的不同选项并讨论其长处与短板。接下来的三个章节,是对前序内容的总结与升华。

其中第9章介绍了由分布式机器学习框架中不同选项所组合出来的各式各样的分布式机器学习算法。

第10章讨论了这些算法的理论性质(例如收敛性)。

第11章则介绍几个主流的分布式机器学习系统(包括Spark MLlib,Multiverso参数服务器系统,和TensorFlow数据流系统)。

最后的第12章是全书的结语,在对全书内容进行简要总结之后,着重讨论分布式机器学习这个领域未来的发展方向。

大数据的发展已经引领了对能够学习包含数百万至数十亿参数的复杂模型的机器学习系统的新需求,以保证足够的能力来消化海量的数据集,提供强大的预测分析(如高维潜特征、中介表示和决策功能)。为了在这样的尺度上,在成百上千台的分布式机器集群中运行机器学习算法,关键往往是要投入显著的工程性的努力——有人可能会问,这样的工程是否还属于机器学习的研究领域?考虑到如此"大"的机器学习系统可以极大地从根植于机器学习的统计和算法的理解中受益——因此,机器学习的研究人员应该不会回避这样的系统设计——我们讨论了一系列从我们近来对工程尺度的机器学习解决方案的研究中提炼的原则和策略。这些原则和策略从机器学习的应用连续跨越到它的工程和理论研究,以及大型机器学习的系统和架构的发展,目标是了解如何使其有效、广泛地适用,并以收敛和缩放保证支持。它们关注的是机器学习研究传统上注意较少的四个关键问题:一个机器学习程序怎样能分布到一个集群中去?机器学习计算怎样能通过机器间的交流连接起来?这样的交流是如何被执行的?机器间应该交流的内容是什么?通过揭示机器学习程序所独有的,而非常见于传统计算机程序中的基础性的统计和算法上的特点,并通过剖析成功案例,以揭示我们如何利用这些原则来同时设计和开发高性能的分布式机器学习软件以及通用的机器学习框架,我们为机器学习的研究人员和从业者提供了进一步塑造并扩大机器学习与系统之间的领域的机会。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值