深入机器学习前，这6个框架你得了解！

最新推荐文章于 2024-03-15 23:02:45 发布

暖杨下的好日子

最新推荐文章于 2024-03-15 23:02:45 发布

阅读量5.5k

点赞数

分类专栏： AI 人工智能

人工智能同时被 2 个专栏收录

32 篇文章 3 订阅

订阅专栏

25 篇文章 0 订阅

订阅专栏

深入机器学习前，这6个框架你得了解！

2017-07-10 爱学习像爱生命的 StuQ

来源｜ IT168文库编辑｜ Emily隔壁家的老铁又要放大招了！

机器学习框架和深度学习框架之间是有区别的。本质上，机器学习框架涵盖用于分类，回归，聚类，异常检测等各种学习方法，并且其可以不包括神经网络方法。深度学习或深度神经网络（DNN）框架涵盖具有许多隐藏层的神经网络拓扑。层越多，可用于聚类和分类的特征越复杂。

Caffe，CNTK，DeepLearning4j，Keras，MXNet和TensorFlow是深度学习框架。Scikit-learning和Spark MLlib是机器学习框架。而Theano跨越了这两个类别。一般来说，简单的机器学习方法不需要GPU加速。虽然你可以在一个或多个CPU上训练DNN，但这种训练往往是缓慢的，需要训练的神经元和层越多，可用于训练的数据越多，需要的时间就越长。

Caffe

Caffe深度学习项目，最初是一个强大的图像分类框架，目前似乎停滞不前，它已被卡在1.0版RC3一年多了，并且其创始人已离开该项目。但它仍然有良好的卷积网络图像识别和良好的Nvidia CUDA GPU支持。但它的模型通常需要大量的GPU内存（超过1GB）运行。

Caffe有命令行，Python和Matlab接口，它依靠ProtoText文件来定义模型和解算器。Caffe在其自己的模型模式中逐层定义网络。当数据和派生数据向前向后遍历网络时，Caffe存储，通信和操作信息为blob（二进制对象），内部是以C连续方式存储的N维数组。Caffe已经证明其在图像分类中的有效性，但它的鼎盛时期似乎已经过去了。除非现有的Caffe模型符合你的需要，或者可以根据你的目的进行微调，否则，我建议使用TensorFlow，MXNet或CNTK。

Microsoft认知工具包

Microsoft Cognitive Toolkit是一个快速的易使用的深度学习软件包，但与TensorFlow相比，其范围有限。它有各种各样的模型和算法，极好的支持Python和Jupyter notebook，一个有趣的声明性BrainScript神经网络配置语言，以及在Windows和Ubuntu Linux上可自动部署。

在缺点方面，当我审查Beta 1文档时发现还没完全更新到CNTK 2，并且包没有MacOS支持。虽然自Beta 1以来，CNTK 2有许多改进，包括新的内存压缩模式，以减少GPU和新的Nuget安装包的内存使用，但MacOS支持仍然缺失。

CNTK 2组件可以处理来自Python，C ++或BrainScript的多维密集或稀疏数据。认知工具包包括各种各样的神经网络类型：FFN（前馈），CNN（卷积），RNN / LSTM（递归/长期短期记忆）等。它支持强化学习，生成监督和非监督学习，自动超参数调整，以及从Python添加新的，用户定义的核心组件在GPU上的能力。它能够在多个GPU和机器上做到精确的并行。

MXNet

MXNet是一个便携式，可扩展的深度学习库，是亚马逊推出的DNN框架选择。MXNet可跨多个主机扩展到多个GPU，线性扩展效率接近85％，具有出色的开发速度，可编程性和可移植性。它不同程度的支持Python，R，Scala，Julia和C ++，它允许混合命令式编程风格。MXNet目前支持在Python，R，Scala，Julia和C ++中构建和训练模型，训练的MXNet模型也可以用于Matlab和JavaScript中的预测。无论选择哪种语言来构建模型，MXNet都会调用优化的C ++后端引擎。

Scikit-learn

Scikit-learn Python框架有广泛的可靠的机器学习算法，但没有深入学习。如果你是一个Python的粉丝，Scikit-learn可能是你最好的选择。Scikit-learn是一个强大的，成熟的机器学习库与各种各样的成熟算法集成。它相对容易安装，学习和使用，它有很好的例子和教程。

另一方面，Scikit-learn不包括深度学习或强化学习，缺少图形模型和序列预测，并且不能真正使用除Python之外的语言。它不支持PyPy，Python即时编译器或GPU。它使用Cython来处理快速函数，例如内循环。

Spark MLlib

Spark MLlib是Spark的开源机器学习库，提供常见的机器学习算法，如分类，回归，聚类和协同过滤（但不包括DNN）以及特征提取，转换，维数缩减以及构建，评估和调整机器学习管道。Spark MLlib还包括用于保存和加载算法，用于数据处理以及进行线性代数和统计的实用程序。

Spark MLlib是在Scala中编写的，并使用线性代数包BreezeBreeze依靠netlib-java来优化数值处理，虽然在开源分布中意味着优化使用CPU。Databricks提供与GPU配合使用的定制Spark集群，这有可能带来一个10倍的速度改进，用于训练具有大数据的复杂机器学习模型。

Spark MLlib拥有针对Scala和Java的完整API，主要是针对Python的完整API以及针对R的部分API。可以通过计算示例来获得良好的覆盖率：54个Java和60个Scala机器学习示例，52个Python 机器学习示例，5个R示例。

TensorFlow

TensorFlow，Google的便携式机器学习和神经网络库，执行和扩展很好，虽然它有点难学。TensorFlow拥有各种各样的模型和算法，并且在具有GPU（用于培训）或Google TPU（用于生产规模预测）的硬件上具有出色的性能。它还具有对Python的良好支持，良好的文档和软件，用于显示和理解描述其计算TensorBoard的数据流图。

TensorFlow可以方便地处理各种神经网络，包括目前正在转换图像识别和语言处理领域的深度CNN和LSTM循环模型。调试异步网络求解器非常简单，TensorBoard软件可以帮助可视化图形。

从Caffe，Microsoft Cognitive Toolkit，MXNet和TensorFlow的深度学习包中选择一个是很困难的决定。我不建议选择Caffe，因为它的发展停滞不前。然而，选择其他三个中的一个也很棘手。

Cognitive Toolkit现在有Python和C ++ API以及网络配置语言BrainScript。如果喜欢使用配置文件，那么Cognitive Toolkit可能是一个不错的选择。但它似乎不像TensorFlow一样成熟，它不能在MacOS上运行。MXNet支持Python，R，Scala，Julia和C ++，但其最支持的API是用于Python的。MXNet在多个主机的多个GPU上展现出良好的扩展性（85％的线性）。

TensorFlow可能是三个包中最成熟的，并且它是一个很好的选择，TensorFlow有基本的构建块，但也需要写大量的代码来描述一个神经网络。有三个简化的API与TensorFlow一起来解决这个问题：tf.contrib.learn，TF-Slim和Keras。支持TensorFlow的最终考虑是TensorBoard，这对于可视化和理解数据流图非常有用。

看完觉得很涨姿势？

为了让大家更深入的掌握机器学习经典框架及其用法，StuQ在7月11日20:00-21:00，推出公开课《1小时入门机器学习经典框架》。

原价99元，现在免费开放给大家，快添加海报中二维码报名吧～

长按二维码，添加小助手，得到听课地址~

图片来源：网络

暖杨下的好日子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入机器学习前，这6个框架你得了解！

深入机器学习前，这6个框架你得了解！2017-07-10 爱学习像爱生命的 StuQ来源｜ IT168文库编辑｜ Emily隔壁家的老铁又要放大招了！机器学习框架和深度学习框架之间是有区别的。本质上，机器学习框架涵盖用于分类，回归，聚类，异常检测等各种学习方法，并且其可以不包括神经网络方法。深度学习或深度神经网络（DNN）框架涵盖具有许多隐藏层的神经网络拓扑。层越多
复制链接

扫一扫