机器学习基础要点_扩展机器学习的5个要点

最新推荐文章于 2022-10-30 01:09:52 发布

cxq8989

最新推荐文章于 2022-10-30 01:09:52 发布

阅读量239

点赞数

文章标签：大数据编程语言 python 机器学习人工智能

原文链接：https://www.infoworld.com/article/3392816/5-takeaways-on-scaling-machine-learning.html

版权

机器学习基础要点

根据Gartner最近的一项调查，许多公司才刚刚开始他们的机器学习之旅，并且37％的组织已经实施了人工智能。如果您打开了机器学习的大门，则可能需要在开始机器学习概念证明或AI，机器学习和深度学习的完整指南之前先复习10个问题。

机器学习在不断发展，新的商业突破，科学进步，框架改进和最佳实践经常被报道。

[机器学习入门：什么是机器学习？ 从数据派生的软件，进行了解释。 • 如何开始机器学习。 • 软件工程师的机器学习技能。 • 为什么要使用Python进行机器学习 ]

我们从拥有大规模机器学习程序的组织那里学习很多东西，并将人工智能视为其业务的核心。在上个月于纽约举行的O'Reilly人工智能大会上，我看到了Facebook和Twitter的机器学习程序之间的一些共同趋势。

了解业务需求和竞争因素

在Facebook，机器学习被广泛应用于许多领域。在Facebook主页上，它可以搜索，翻译语言，扫描新闻提要，识别上传的照片中的面Kong并查看展示了哪些广告。在幕后，机器学习用于内容理解，语音识别，内容完整性，情感分析，不良内容检测和欺诈性帐户检测。

同样，您可以在Twitter的推文排名，广告选择，搜索功能和用户推荐中看到Twitter的机器学习。机器学习还用于标记不安全的推文，垃圾邮件和图像。

可能不那么明显的是每个机器学习操作的规模以及两家公司如何投资于差异化功能。

Facebook每天为26亿用户执行200万亿次以上的预测。它的许多用户都是全球性的，并且存在带宽限制，并且许多交互是通过移动电话完成的。

由于61％的全球移动用户拥有6岁或更老的手机，因此这带来了一些挑战。不到10％的用户使用最先进的智能手机。 Facebook策略的一部分是将更多的神经网络计算转移到边缘设备，以扩展规模，降低延迟并提供更多个性化的机器学习模型。 Facebook的机器学习技术堆栈体现了其目标，即易于研究新模型，同时进行大规模推理，并将一些计算工作转移到边缘设备。

Twitter在规模和延迟要求方面优化了其模型。它每秒执行数千万个预测，每天训练数以兆兆字节为单位的某些模型。该公司专注于优化延迟，模型响应所需的时间，并已定义了数十毫秒的预测延迟预算。

标准化平台以扩大规模

Facebook和Twitter都早日开始了他们的机器学习程序。他们从非结构化方法开始，但现在正在采取步骤标准化其平台，框架和管道。 Twitter旨在简化共享模型的工作，并希望减少重复工作。 Facebook正在解决可靠性，可伸缩性，运行模型的效率以及其科学家和工程师的开发人员经验方面的痛点。

两家公司的平台都围绕类似的数据管道处理原理进行了优化。两者都有处理数据，提取特征，训练模型以及将模型部署到生产环境的阶段。

两家社交媒体巨头正在采取步骤，以标准化选定的机器学习框架。 Facebook正在使用PyTorch轻松进行研究，而Caffe2则可以大规模运行生产推理模型。它已将其整合到结合了这两个功能的PyTorch 1.0中，并使用Caffe2Go运行其移动神经网络。 Twitter使用的是Lua Torch ， TensorFlow ， Scikit ，PyTorch和其他平台。它现在在标准化烫， PySpark ，Tensorflow和Apache的气流。