python中列表的概念_机器学习速查表全集（从理论概念到Python库）

最新推荐文章于 2021-10-27 15:53:00 发布

weixin_39722965

最新推荐文章于 2021-10-27 15:53:00 发布

阅读量110

点赞数

文章标签： python中列表的概念

选自Github等

机器之心编译参与：蒋思源

机器之心此前曾提供过机器学习和深度学习最好的九张代码速查表，不过近日又有博主发表了一次完全的速查表。虽然有一些和以前是重复的，但还是增加了一些新的速查表。本文前一部分主要重点描述新添加的速查表，后一部分再为读者提供一些以前的速查表资源。这些速查表暂时是保持英文的，因为后面一些不熟悉的库和函数我们可能编译不太精确。所以如果读者有较多需求，机器之心会考虑在 Github 中汉化这些概念和库函数速查表。文末提供了所有速查表的百度云下载地址。

首先第一张图描述了机器学习的主要分类和算法。虽然有几个表情没看懂，但我们发现这些表情还是挺有意思的。如下图所示，机器学习可分为监督学习、无监督学习和强化学习。接下来主要是回归方法、分类方法、聚类方法、降维方法和其他一些重要的特征。我们还可以看看具体算法的表情，随机森林是四棵不同的树我们能懂，但为什么支持向量机是一只独角兽？还有一些其实挺生动的，例如异常检测所用的表情就是三只熊猫夹一只狗熊。

0?wx_fmt=png

算法选择

下面一张图展示了如何为我们工作和任务选择正确的 Scikit-learn 算法。其中每一个节点都是一个条件，然后按照要求和情况进行就可以找到管用的算法。比如说我们的数据量大于 50、需要预测类别、是标注数据、小于 100K 的数据、线性支持向量分类器不管用、不是文本数据、K 近邻分类器不管用，然后我们就只能选择最后的 SVC 集成分类器了。这种选择算法的速查表确实很管用，很适合我们没有什么机器学习开发经验的入门者使用，因为这会大大提高我们构建系统的效率。

0?wx_fmt=png

机器之心以前也发过初学者如何选择合适的机器学习算法，该文章也有一张速查表，我们可以在以下展示。这一张速查表可以在特定任务下指导我们到底需要选择什么样的机器学习算法。例如我们的数据不需要降维、有标注、预测的是类别、更关注模型精度，那么就可以选择带核函数的支持向量机、随机森林、神经网络和梯度提升树算法。

0?wx_fmt=png

如下图所示，我们还有这一张算法选择的速查表。该速查表可以帮助我们在微软 Azure 平台上找到合适的机器学习算法，它会首先根据我们已有数据的特点和类型进行分类，其次再根据实际情况给出合适的算法。例如我们的任务是预测一个类别、且该预测会存在多个类别而不仅仅只有两个，那么如果我们希望模型能快速训练且准确度也要高，那么我们就可以选择多类别决策森林。

0?wx_fmt=png

算法概念

我们不仅需要了解如何构建机器学习模型，同时我们还需要理解构建机器学习的各种概念。如下所示，这两张速查表介绍了很多统计学、线性代数、最优化理论和机器学习理论上的概念，这些概念在模型构建和模型操作计算上有很重要的意义。比如前面就介绍了线性代数中的施密特正交化（Gram Schmidt Orthogonalization）概念，如下所述施密特正交化可以将 n 个线性无关向量转化为 n 个互相正交的向量，该速查表给出了转化公式。还有后面常用于最优化的梯度和海塞矩阵的求解方法，该速查表用一阶偏导数向量的形式表示了梯度的定义，二阶偏导数及其在矩阵中的位置表示了海塞矩阵的定义方式。这两个都是在最优化如梯度下降和牛顿法中核心的概念。当然机器学习的概念也少不了，比如前面的决策边界和后面的反向传播算法公式等。

0?wx_fmt=png

TensorFlow

今年谷歌发布了第二代 TPU，同时它能在 Google Compute Engine 上进行使用。第二代 TPU 的性能达到每秒 180 万亿次浮点运算（180 teraflops），并且如果将 64 个 TPU 组织成一个计算集群，那么它的性能达到每秒 11.5 千万亿次浮点运算（11.5 petaflops）。如下图所示，该速查表不仅简要介绍了 TensorFlow、Skflow 和 Keras，同时还描述了如何安装和获得帮助的函数。该速查表还重点描述了 TensorFlow 的常用函数，如常见的梯度下降法、适应性梯度算法和 Adam 优化算法等优化器，常见的 ReLU、Sigmoid 和 tanh 等激活函数。

0?wx_fmt=png