数据科学是艰苦的工作,而不是魔咒。 一个AI模型的性能是否如所宣传的取决于其训练的程度,并且没有“一刀切”的方法来训练AI模型。
分布式AI培训的必要弊端
缩放是训练AI模型时最棘手的考虑之一。 当模型变得过于资源匮乏而无法在任何单个计算平台上进行整体处理时,培训将尤其具有挑战性。 模型可能增长得很大,超过了单个处理平台的内存限制,或者加速器需要开发特殊的算法或基础结构。 训练数据集可能会变得如此庞大,以至于训练花费了非常长的时间,并且变得非常昂贵。
[ 也在InfoWorld上:2020年的人工智能预测 ]
如果我们不要求模型特别擅长于其分配的任务,那么缩放就可以轻而易举。 但是,随着我们提高推理准确性的水平,培训过程可能会花费更长的时间并消耗更多的资源。 解决此问题不仅仅是解决问题的能力更强的硬件。 与许多应用程序工作负载一样,随着AI模型复杂性的增加,不能仅依靠更快的处理器来维持线性扩展。
可能需要进行分布式培训。 如果可以将模型的组件划分并分发到优化的节点以进行并行处理,则可以大大减少训练模型所需的时间。 但是,考虑到统计模型的构造有多脆弱,并行化本身本身就是一件繁琐的工作。
如果图形中一些看似很小的更改(例如,图层,节点,连接,权重,超参数等)破坏了模型进行准确推断的能力,则该模型可能会严重失败。 即使我们保持基础图完整无缺,并尝试将模型的各层划分为分布式组件,也需要将其结果重新组合为一个整体。
如果我们不小心,可能会导致重组模型在执行其指定任务时以某种方式出现偏差。
分布式AI培训的新行业框架
在整个数据科学专业中,我们继续看到AI模型训练方面的创新,其中大部分着重于如何在多云和其他分布式环境中有效地做到这一点。
在这方面,谷歌和微软