使用 Apache Spark 进行机器学习
文章平均质量分 95
Scaling Machine Learning with Spark 检查了基于 Apache Spark 生态系统构建端到端分布式 ML 工作流的各种技术,包括 Spark MLlib、MLFlow、TensorFlow、PyTorch 和 Petastorm。
Sonhhxg_柒
Save your heart for someone who cares. #愿岁月清净 抬头遇见皆是柔情#
展开
-
【ML】第 3 章:使用 MLFlow管理 ML 实验生命周期
MLflow 是一个可以简化 ML 生命周期管理的平台。它允许用户及其团队使用标准化结构来管理数据,包括其实验、可重复性、部署和中央模型注册表。MLflow 重新定义了特征组织并集成了整个 ML 工作流程。从总体实验到单次运行试验再到团队的个别成员,MLflow 允许您有效地跟踪您的过程。每个超参数调整、每个功能更改、每个可能的指标都可以使用 MLflow 记录在一个有组织的位置。它是让您的团队保持同步和相互联系的工具。从高层次的方法来看,您可以将其拆分为两个主要组件,如图 3-2。原创 2023-01-11 09:24:27 · 2353 阅读 · 17 评论 -
【ML】第 2 章:PySpark 简介
通常,您会想要控制跟随并提供您的自定义模式。这使得代码本身的协作和可重复性成为可能。它还可以节省您以后调试问题的宝贵时间。那么,如何使用 Spark 做到这一点?您将需要创建一个 StructType() 并在阅读期间将其作为所需模式传递给阅读器。在结构类型中,使用专用 API 添加所有列名称和类型。在上面的示例中,添加功能中有 True。这意味着该值可以为空。原创 2023-01-08 22:19:01 · 2037 阅读 · 20 评论 -
【ML】第 1 章 :分布式机器学习:术语和概念
文章目录还记得数据科学家在适合笔记本电脑内存的数据集上运行他们的机器学习算法吗?还是自己生成数据?这与世界上缺乏数据无关。那时,世界已经进入了 Zettabyte 时代,从 Cisco Systems 宣布其全球 IP 流量在 20XX 年达到约 1.2 Zettabyte 的峰值开始。对于许多人来说,数据就在那里,但它被锁定在大规模创建、捕获、复制和处理数据的生产系统中。这样的规模本可以让数据科学家产生更好、更深刻的机器学习模型。计算呢?当数据科学家最终获得数据时,数据非常庞大,他们不得不将其采样到有限数原创 2022-12-29 19:53:00 · 1742 阅读 · 41 评论