大数据新机遇分布式机器学习

最新推荐文章于 2022-03-08 20:50:44 发布

别盲目追风

最新推荐文章于 2022-03-08 20:50:44 发布

阅读量392

点赞数 1

文章标签：大数据机器学习大数据开发大数据学习

本文链接：https://blog.csdn.net/huasdsadsa/article/details/93516874

版权

分布式机器学习随着大数据兴起，旨在通过多处理器分解计算任务，处理大规模数据。从搜索引擎的网页分析到电商的用户行为预测，大数据的广泛应用推动了这一领域的进步。通过收集互联网用户行为数据，分布式机器学习系统能归纳出人类知识，实现高精度的语音识别和语义理解。随着数据的不断积累，模型的准确性不断提升，开启了机器超越个体智能的新时代。

摘要由CSDN通过智能技术生成

分布式机器学习是随着“大数据”概念兴起的。在有大数据之前，有很多研究工作为了让机器学习算法更快，而利多多个处理器。这类工作通常称为“并行计算”或者“并行机器学习”，其核心目标是把计算任务拆解成多个小的任务，分配到多个处理器上做计算。

一个新时代

起源

分布式计算或者分布式机器学习除了要把计算任务分布到多个处理器上，更重要的是把数据(包括训练数据以及中间结果)分布开来。因为在大数据时代，一台机器的硬盘往往装不下全部数据，或者即使装下了，也会受限于机器的I/O通道的带宽，以至于访问速度很慢。为了更大的存储容量、吞吐量以及容错能力，我们都希望把数据分布在多台计算机上。

那么什么样的数据大到一台机器甚至几百台机器的硬盘都装不下呢?要知道，现在很多服务器的硬盘空间都是数TB的了!其实这样的大数据有很多。比如搜索引擎要爬下很多很多的网页，对其内容做分析并建立索引。有多少网页呢?这个数字很难估计，因为这是随时间变化的。

在Web 2.0出现之前，全球网页数量的增长相对稳定，因为网页都是专业人员编辑的。而由于各种Web 2.0工具帮助用户建立自己的网页，比如博客、甚至微博，所以网页数量呈指数速度递增。

另一种典型的大数据是电商网站上的用户行为数据。比如在亚马逊或者淘宝上，每天都很多用户看到了很多推荐的商品，并且点击了其中一些。这些用户点击推荐商品的行为会被亚马逊和淘宝的服务器记录下来，作为分布式机器学习系统的输入。输出是