AI：人工智能的简介之AI领域基础概念术语解释之《Google发布机器学习术语表 (中英对照）》、机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)

将一个特征（通常是连续特征）转换成多个二元特征（称为桶或箱），通常是根据值区间进行转换。例如，您可以将温度区间分割为离散分箱，而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位，则可以将介于 0.0 到 15.0 度之间的所有温度都归入一个分箱，将介于 15.1 到 30.0 度之间的所有温度归入第二个分箱，并将介于 30.1 到 50.0 度之间的所有温度归入第三个分箱。

C

校准层 (calibration layer)

一种预测后调整，通常是为了降低预测偏差。调整后的预测和概率应与观察到的标签集的分布一致。

候选采样 (candidate sampling)

一种训练时进行的优化，会使用某种函数（例如 softmax）针对所有正类别标签计算概率，但对于负类别标签，则仅针对其随机样本计算概率。例如，如果某个样本的标签为“小猎犬”和“狗”，则候选采样将针对“小猎犬”和“狗”类别输出以及其他类别（猫、棒棒糖、栅栏）的随机子集计算预测概率和相应的损失项。这种采样基于的想法是，只要正类别始终得到适当的正增强，负类别就可以从频率较低的负增强中进行学习，这确实是在实际中观察到的情况。候选采样的目的是，通过不针对所有负类别计算预测结果来提高计算效率。

分类数据 (categorical data)

一种特征，拥有一组离散的可能值。以某个名为 house style 的分类特征为例，该特征拥有一组离散的可能值（共三个），即 Tudor, ranch, colonial。通过将 house style 表示成分类数据，相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。

有时，离散集中的值是互斥的，只能将其中一个值应用于指定样本。例如，car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下，则可以应用多个值。一辆车可能会被喷涂多种不同的颜色，因此，car color 分类特征可能会允许单个样本具有多个值（例如 red 和 white）。

分类特征有时称为离散特征。

与数值数据相对。

检查点 (checkpoint)

一种数据，用于捕获模型变量在特定时间的状态。借助检查点，可以导出模型权重，跨多个会话执行训练，以及使训练在发生错误之后得以继续（例如作业抢占）。请注意，图本身不包含在检查点中。

类别 (class)

为标签枚举的一组目标值中的一个。例如，在检测垃圾邮件的二元分类模型中，两种类别分别是“垃圾邮件”和“非垃圾邮件”。在识别狗品种的多类别分类模型中，类别可以是“贵宾犬”、“小猎犬”、“哈巴犬”等等。

分类不平衡的数据集 (class-imbalanced data set)

一种二元分类问题，在此类问题中，两种类别的标签在出现频率方面具有很大的差距。例如，在某个疾病数据集中，0.0001 的样本具有正类别标签，0.9999 的样本具有负类别标签，这就属于分类不平衡问题；但在某个足球比赛预测器中，0.51 的样本的标签为其中一个球队赢，0.49 的样本的标签为另一个球队赢，这就不属于分类不平衡问题。

分类模型 (classification model)

一种机器学习模型，用于区分两种或多种离散类别。例如，某个自然语言处理分类模型可以确定输入的句子是法语、西班牙语还是意大利语。请与回归模型进行比较。

分类阈值 (classification threshold)

一种标量值条件，应用于模型预测的得分，旨在将正类别与负类别区分开。将逻辑回归结果映射到二元分类时使用。以某个逻辑回归模型为例，该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9，那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”，低于 0.9 的则被归类为“非垃圾邮件”。

协同过滤 (collaborative filtering)

根据很多其他用户的兴趣来预测某位用户的兴趣。协同过滤通常用在推荐系统中。

混淆矩阵 (confusion matrix)

一种 NxN 表格，用于总结分类模型的预测成效；即标签和模型预测的分类之间的关联。在混淆矩阵中，一个轴表示模型预测的标签，另一个轴表示实际标签。N 表示类别个数。在二元分类问题中，N=2。例如，下面显示了一个二元分类问题的混淆矩阵示例：

	肿瘤（预测的标签）	非肿瘤（预测的标签）
肿瘤（实际标签）	18	1
非肿瘤（实际标签）	6	452

上面的混淆矩阵显示，在 19 个实际有肿瘤的样本中，该模型正确地将 18 个归类为有肿瘤（18 个真正例），错误地将 1 个归类为没有肿瘤（1 个假负例）。同样，在 458 个实际没有肿瘤的样本中，模型归类正确的有 452 个（452 个真负例），归类错误的有 6 个（6 个假正例）。

多类别分类问题的混淆矩阵有助于确定出错模式。例如，某个混淆矩阵可以揭示，某个经过训练以识别手写数字的模型往往会将 4 错误地预测为 9，将 7 错误地预测为 1。混淆矩阵包含计算各种效果指标（包括精确率和召回率）所需的充足信息。

连续特征 (continuous feature)

一种浮点特征，可能值的区间不受限制。与离散特征相对。

收敛 (convergence)

通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

另请参阅早停法。

另请参阅 Boyd 和 Vandenberghe 合著的 Convex Optimization（《凸优化》）。

凸函数 (convex function)

一种函数，函数图像以上的区域为凸集。典型凸函数的形状类似于字母 U。例如，以下都是凸函数：

相反，以下函数则不是凸函数。请注意图像上方的区域如何不是凸集：

严格凸函数只有一个局部最低点，该点也是全局最低点。经典的 U 形函数都是严格凸函数。不过，有些凸函数（例如直线）则不是这样。

很多常见的损失函数（包括下列函数）都是凸函数：

梯度下降法的很多变体都一定能找到一个接近严格凸函数最小值的点。同样，随机梯度下降法的很多变体都有很高的可能性能够找到接近严格凸函数最小值的点（但并非一定能找到）。

两个凸函数的和（例如 L2 损失函数 + L1 正则化）也是凸函数。

深度模型绝不会是凸函数。值得注意的是，专门针对凸优化设计的算法往往总能在深度网络上找到非常好的解决方案，虽然这些解决方案并不一定对应于全局最小值。

凸优化 (convex optimization)

使用数学方法（例如梯度下降法）寻找凸函数最小值的过程。机器学习方面的大量研究都是专注于如何通过公式将各种问题表示成凸优化问题，以及如何更高效地解决这些问题。

如需完整的详细信息，请参阅 Boyd 和 Vandenberghe 合著的 Convex Optimization（《凸优化》）。

凸集 (convex set)

欧几里得空间的一个子集，其中任意两点之间的连线仍完全落在该子集内。例如，下面的两个图形都是凸集：

相反，下面的两个图形都不是凸集：

成本 (cost)

是损失的同义词。

交叉熵 (cross-entropy)

对数损失函数向多类别分类问题进行的一种泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅困惑度。

自定义 Estimator (custom Estimator)

您按照这些说明自行编写的 Estimator。

与预创建的 Estimator 相对。

D

数据集 (data set)

一组样本的集合。

Dataset API (tf.data)

一种高级别的 TensorFlow API，用于读取数据并将其转换为机器学习算法所需的格式。tf.data.Dataset 对象表示一系列元素，其中每个元素都包含一个或多个张量。tf.data.Iterator 对象可获取 Dataset 中的元素。

如需详细了解 Dataset API，请参阅《TensorFlow 编程人员指南》中的导入数据。

决策边界 (decision boundary)

在二元分类或多类别分类问题中，模型学到的类别之间的分界线。例如，在以下表示某个二元分类问题的图片中，决策边界是橙色类别和蓝色类别之间的分界线：

密集层 (dense layer)

是全连接层的同义词。

深度模型 (deep model)

一种神经网络，其中包含多个隐藏层。深度模型依赖于可训练的非线性关系。

与宽度模型相对。

密集特征 (dense feature)

一种大部分数值是非零值的特征，通常是一个浮点值张量。参照稀疏特征。

衍生特征 (derived feature)

是合成特征的同义词。

离散特征 (discrete feature)

一种特征，包含有限个可能值。例如，某个值只能是“动物”、“蔬菜”或“矿物”的特征便是一个离散特征（或分类特征）。与连续特征相对。

丢弃正则化 (dropout regularization)

一种形式的正则化，在训练神经网络方面非常有用。丢弃正则化的运作机制是，在神经网络层的一个梯度步长中移除随机选择的固定数量的单元。丢弃的单元越多，正则化效果就越强。这类似于训练神经网络以模拟较小网络的指数级规模集成学习。如需完整的详细信息，请参阅 Dropout: A Simple Way to Prevent Neural Networks from Overfitting（《丢弃：一种防止神经网络过拟合的简单方法》）。

动态模型 (dynamic model)

一种模型，以持续更新的方式在线接受训练。也就是说，数据会源源不断地进入这种模型。

E

早停法 (early stopping)

一种正则化方法，涉及在训练损失仍可以继续减少之前结束模型训练。使用早停法时，您会在基于验证数据集的损失开始增加（也就是泛化效果变差）时结束模型训练。

嵌套 (embeddings)

一种分类特征，以连续值特征表示。通常，嵌套是指将高维度向量映射到低维度的空间。例如，您可以采用以下两种方式之一来表示英文句子中的单词：

表示成包含百万个元素（高维度）的稀疏向量，其中所有元素都是整数。向量中的每个单元格都表示一个单独的英文单词，单元格中的值表示相应单词在句子中出现的次数。由于单个英文句子包含的单词不太可能超过 50 个，因此向量中几乎每个单元格都包含 0。少数非 0 的单元格中将包含一个非常小的整数（通常为 1），该整数表示相应单词在句子中出现的次数。
表示成包含数百个元素（低维度）的密集向量，其中每个元素都包含一个介于 0 到 1 之间的浮点值。这就是一种嵌套。

在 TensorFlow 中，会按反向传播损失训练嵌套，和训练神经网络中的任何其他参数时一样。

经验风险最小化 (ERM, empirical risk minimization)

用于选择可以将基于训练集的损失降至最低的模型函数。与结构风险最小化相对。

集成学习 (ensemble)

多个模型的预测结果的并集。您可以通过以下一项或多项来创建集成学习：

不同的初始化
不同的超参数
不同的整体结构

深度模型和宽度模型属于一种集成学习。

周期 (epoch)

在训练时，整个数据集的一次完整遍历，以便不漏掉任何一个样本。因此，一个周期表示（N/批次规模）次训练迭代，其中 N 是样本总数。

Estimator

tf.Estimator 类的一个实例，用于封装负责构建 TensorFlow 图并运行 TensorFlow 会话的逻辑。您可以创建自己的自定义 Estimator（如需相关介绍，请点击此处），也可以将其他人预创建的 Estimator 实例化。

样本 (example)

数据集的一行。一个样本包含一个或多个特征，此外还可能包含一个标签。另请参阅有标签样本和无标签样本。

F

假负例 (FN, false negative)

被模型错误地预测为负类别的样本。例如，模型推断出某封电子邮件不是垃圾邮件（负类别），但该电子邮件其实是垃圾邮件。

假正例 (FP, false positive)

被模型错误地预测为正类别的样本。例如，模型推断出某封电子邮件是垃圾邮件（正类别），但该电子邮件其实不是垃圾邮件。

假正例率（false positive rate, 简称 FP 率）

ROC 曲线中的 x 轴。FP 率的定义如下：

假正例率假正例数假正例数真负例数假正例率=假正例数假正例数+真负例数

特征 (feature)

在进行预测时使用的输入变量。

特征列 (FeatureColumns)

一组相关特征，例如用户可能居住的所有国家/地区的集合。样本的特征列中可能包含一个或多个特征。

TensorFlow 中的特征列内还封装了元数据，例如：

特征的数据类型
特征是固定长度还是应转换为嵌套

特征列可以包含单个特征。

“特征列”是 Google 专用的术语。特征列在 Yahoo/Microsoft 使用的 VW 系统中称为“命名空间”，也称为场。

特征组合 (feature cross)

通过将单独的特征进行组合（相乘或求笛卡尔积）而形成的合成特征。特征组合有助于表示非线性关系。

特征工程 (feature engineering)

指以下过程：确定哪些特征可能在训练模型方面非常有用，然后将日志文件及其他来源的原始数据转换为所需的特征。在 TensorFlow 中，特征工程通常是指将原始日志文件条目转换为 tf.Example proto buffer。另请参阅 tf.Transform。

特征工程有时称为特征提取。

特征集 (feature set)

训练机器学习模型时采用的一组特征。例如，对于某个用于预测房价的模型，邮政编码、房屋面积以及房屋状况可以组成一个简单的特征集。

特征规范 (feature spec)

用于描述如何从 tf.Example proto buffer 提取特征数据。由于 tf.Example proto buffer 只是一个数据容器，因此您必须指定以下内容：

要提取的数据（即特征的键）
数据类型（例如 float 或 int）
长度（固定或可变）

Estimator API 提供了一些可用来根据给定 FeatureColumns 列表生成特征规范的工具。

完整 softmax (full softmax)

请参阅 softmax。与候选采样相对。

全连接层 (fully connected layer)

一种隐藏层，其中的每个节点均与下一个隐藏层中的每个节点相连。

全连接层又称为密集层。

G

泛化 (generalization)

指的是模型依据训练时采用的数据，针对以前未见过的新数据做出正确预测的能力。

广义线性模型 (generalized linear model)

最小二乘回归模型（基于高斯噪声）向其他类型的模型（基于其他类型的噪声，例如泊松噪声或分类噪声）进行的一种泛化。广义线性模型的示例包括：

逻辑回归
多类别回归
最小二乘回归

可以通过凸优化找到广义线性模型的参数。

广义线性模型具有以下特性：

最优的最小二乘回归模型的平均预测结果等于训练数据的平均标签。
最优的逻辑回归模型预测的平均概率等于训练数据的平均标签。

广义线性模型的功能受其特征的限制。与深度模型不同，广义线性模型无法“学习新特征”。

梯度 (gradient)

偏导数相对于所有自变量的向量。在机器学习中，梯度是模型函数偏导数的向量。梯度指向最速上升的方向。

梯度裁剪 (gradient clipping)

在应用梯度值之前先设置其上限。梯度裁剪有助于确保数值稳定性以及防止梯度爆炸。

梯度下降法 (gradient descent)

一种通过计算并且减小梯度将损失降至最低的技术，它以训练数据为条件，来计算损失相对于模型参数的梯度。通俗来说，梯度下降法以迭代方式调整参数，逐渐找到权重和偏差的最佳组合，从而将损失降至最低。

图 (graph)

TensorFlow 中的一种计算规范。图中的节点表示操作。边缘具有方向，表示将某项操作的结果（一个张量）作为一个操作数传递给另一项操作。可以使用 TensorBoard 直观呈现图。

H

启发法 (heuristic)

一种非最优但实用的问题解决方案，足以用于进行改进或从中学习。

隐藏层 (hidden layer)

神经网络中的合成层，介于输入层（即特征）和输出层（即预测）之间。神经网络包含一个或多个隐藏层。

合页损失函数 (hinge loss)

一系列用于分类的损失函数，旨在找到距离每个训练样本都尽可能远的决策边界，从而使样本和边界之间的裕度最大化。KSVM 使用合页损失函数（或相关函数，例如平方合页损失函数）。对于二元分类，合页损失函数的定义如下：

loss=max(0,1−(y′∗y))

其中“y'”表示分类器模型的原始输出：

y′=b+w1x1+w2x2+…wnxn

“y”表示真标签，值为 -1 或 +1。

因此，合页损失与 (y * y') 的关系图如下所示：

维持数据 (holdout data)

训练期间故意不使用（“维持”）的样本。验证数据集和测试数据集都属于维持数据。维持数据有助于评估模型向训练时所用数据之外的数据进行泛化的能力。与基于训练数据集的损失相比，基于维持数据集的损失有助于更好地估算基于未见过的数据集的损失。

超参数 (hyperparameter)

在模型训练的连续过程中，您调节的“旋钮”。例如，学习速率就是一种超参数。

与参数相对。

超平面 (hyperplane)

将一个空间划分为两个子空间的边界。例如，在二维空间中，直线就是一个超平面，在三维空间中，平面则是一个超平面。在机器学习中更典型的是：超平面是分隔高维度空间的边界。核支持向量机利用超平面将正类别和负类别区分开来（通常是在极高维度空间中）。

I

独立同分布 (i.i.d, independently and identically distributed)

从不会改变的分布中提取的数据，其中提取的每个值都不依赖于之前提取的值。i.i.d. 是机器学习的理想气体 - 一种实用的数学结构，但在现实世界中几乎从未发现过。例如，某个网页的访问者在短时间内的分布可能为 i.i.d.，即分布在该短时间内没有变化，且一位用户的访问行为通常与另一位用户的访问行为无关。不过，如果将时间窗口扩大，网页访问者的分布可能呈现出季节性变化。

推断 (inference)

在机器学习中，推断通常指以下过程：通过将训练过的模型应用于无标签样本来做出预测。在统计学中，推断是指在某些观测数据条件下拟合分布参数的过程。（请参阅维基百科中有关统计学推断的文章。）

输入函数 (input function)

在 TensorFlow 中，用于将输入数据返回到 Estimator 的训练、评估或预测方法的函数。例如，训练输入函数用于返回训练集中的批次特征和标签。

输入层 (input layer)

神经网络中的第一层（接收输入数据的层）。

实例 (instance)

是样本的同义词。

可解释性 (interpretability)

模型的预测可解释的难易程度。深度模型通常不可解释，也就是说，很难对深度模型的不同层进行解释。相比之下，线性回归模型和宽度模型的可解释性通常要好得多。

评分者间一致性信度 (inter-rater agreement)

一种衡量指标，用于衡量在执行某项任务时评分者达成一致的频率。如果评分者未达成一致，则可能需要改进任务说明。有时也称为注释者间一致性信度或评分者间可靠性信度。另请参阅 Cohen's kappa（最热门的评分者间一致性信度衡量指标之一）。

迭代 (iteration)

模型的权重在训练期间的一次更新。迭代包含计算参数在单个批量数据上的梯度损失。

K

Keras

一种热门的 Python 机器学习 API。Keras 能够在多种深度学习框架上运行，其中包括 TensorFlow（在该框架上，Keras 作为 tf.keras 提供）。

核支持向量机 (KSVM, Kernel Support Vector Machines)

一种分类算法，旨在通过将输入数据向量映射到更高维度的空间，来最大化正类别和负类别之间的裕度。以某个输入数据集包含一百个特征的分类问题为例。为了最大化正类别和负类别之间的裕度，KSVM 可以在内部将这些特征映射到百万维度的空间。KSVM 使用合页损失函数。

L

L1 损失函数 (L₁ loss)

一种损失函数，基于模型预测的值与标签的实际值之差的绝对值。与 L2 损失函数相比，L1 损失函数对离群值的敏感性弱一些。

L1 正则化 (L₁ regularization)

一种正则化，根据权重的绝对值的总和来惩罚权重。在依赖稀疏特征的模型中，L1 正则化有助于使不相关或几乎不相关的特征的权重正好为 0，从而将这些特征从模型中移除。与 L2 正则化相对。

L2 损失函数 (L₂ loss)

请参阅平方损失函数。

L2 正则化 (L₂ regularization)

一种正则化，根据权重的平方和来惩罚权重。L2 正则化有助于使离群值（具有较大正值或较小负值）权重接近于 0，但又不正好为 0。（与 L1 正则化相对。）在线性模型中，L2 正则化始终可以改进泛化。

标签 (label)

在监督式学习中，标签指样本的“答案”或“结果”部分。有标签数据集中的每个样本都包含一个或多个特征以及一个标签。例如，在房屋数据集中，特征可以包括卧室数、卫生间数以及房龄，而标签则可以是房价。在垃圾邮件检测数据集中，特征可以包括主题行、发件人以及电子邮件本身，而标签则可以是“垃圾邮件”或“非垃圾邮件”。

有标签样本 (labeled example)

包含特征和标签的样本。在监督式训练中，模型从有标签样本中进行学习。

lambda

是正则化率的同义词。

（多含义术语，我们在此关注的是该术语在正则化中的定义。）

层 (layer)

神经网络中的一组神经元，处理一组输入特征，或一组神经元的输出。

此外还指 TensorFlow 中的抽象层。层是 Python 函数，以张量和配置选项作为输入，然后生成其他张量作为输出。当必要的张量组合起来，用户便可以通过模型函数将结果转换为 Estimator。

Layers API (tf.layers)

一种 TensorFlow API，用于以层组合的方式构建深度神经网络。通过 Layers API，您可以构建不同类型的层，例如：

通过 tf.layers.Dense 构建全连接层。
通过 tf.layers.Conv2D 构建卷积层。

在编写自定义 Estimator 时，您可以编写“层”对象来定义所有隐藏层的特征。

Layers API 遵循 [Keras](#Keras) layers API 规范。也就是说，除了前缀不同以外，Layers API 中的所有函数均与 Keras layers API 中的对应函数具有相同的名称和签名。

学习速率 (learning rate)

在训练模型时用于梯度下降的一个变量。在每次迭代期间，梯度下降法都会将学习速率与梯度相乘。得出的乘积称为梯度步长。

学习速率是一个重要的超参数。

最小二乘回归 (least squares regression)

一种通过最小化 L2 损失训练出的线性回归模型。

线性回归 (linear regression)

一种回归模型，通过将输入特征进行线性组合，以连续值作为输出。

逻辑回归 (logistic regression)

一种模型，通过将 S 型函数应用于线性预测，生成分类问题中每个可能的离散标签值的概率。虽然逻辑回归经常用于二元分类问题，但也可用于多类别分类问题（其叫法变为多类别逻辑回归或多项回归）。

对数损失函数 (Log Loss)

二元逻辑回归中使用的损失函数。

损失 (Loss)

一种衡量指标，用于衡量模型的预测偏离其标签的程度。或者更悲观地说是衡量模型有多差。要确定此值，模型必须定义损失函数。例如，线性回归模型通常将均方误差用于损失函数，而逻辑回归模型则使用对数损失函数。

M

机器学习 (machine learning)

一种程序或系统，用于根据输入数据构建（训练）预测模型。这种系统会利用学到的模型根据从分布（训练该模型时使用的同一分布）中提取的新数据（以前从未见过的数据）进行实用的预测。机器学习还指与这些程序或系统相关的研究领域。

均方误差 (MSE, Mean Squared Error)

每个样本的平均平方损失。MSE 的计算方法是平方损失除以样本数。TensorFlow Playground 显示的“训练损失”值和“测试损失”值都是 MSE。

指标 (metric)

您关心的一个数值。可能可以也可能不可以直接在机器学习系统中得到优化。您的系统尝试优化的指标称为目标。

Metrics API (tf.metrics)

一种用于评估模型的 TensorFlow API。例如，tf.metrics.accuracy 用于确定模型的预测与标签匹配的频率。在编写自定义 Estimator 时，您可以调用 Metrics API 函数来指定应如何评估您的模型。

小批次 (mini-batch)

从训练或推断过程的一次迭代中一起运行的整批样本内随机选择的一小部分。小批次的规模通常介于 10 到 1000 之间。与基于完整的训练数据计算损失相比，基于小批次数据计算损失要高效得多。

小批次随机梯度下降法 (SGD, mini-batch stochastic gradient descent)

一种采用小批次样本的梯度下降法。也就是说，小批次 SGD 会根据一小部分训练数据来估算梯度。Vanilla SGD 使用的小批次的规模为 1。

ML

机器学习的缩写。

模型 (model)

机器学习系统从训练数据学到的内容的表示形式。多含义术语，可以理解为下列两种相关含义之一：

一种 TensorFlow 图，用于表示预测计算结构。
该 TensorFlow 图的特定权重和偏差，通过训练决定。

模型训练 (model training)

确定最佳模型的过程。

动量 (Momentum)

一种先进的梯度下降法，其中学习步长不仅取决于当前步长的导数，还取决于之前一步或多步的步长的导数。动量涉及计算梯度随时间而变化的指数级加权移动平均值，与物理学中的动量类似。动量有时可以防止学习过程被卡在局部最小的情况。

多类别分类 (multi-class classification)

区分两种以上类别的分类问题。例如，枫树大约有 128 种，因此，确定枫树种类的模型就属于多类别模型。反之，仅将电子邮件分为两类（“垃圾邮件”和“非垃圾邮件”）的模型属于二元分类模型。

多项分类 (multinomial classification)

是多类别分类的同义词。

N

NaN 陷阱 (NaN trap)

模型中的一个数字在训练期间变成 NaN，这会导致模型中的很多或所有其他数字最终也会变成 NaN。

NaN 是“非数字”的缩写。

负类别 (negative class)

在二元分类中，一种类别称为正类别，另一种类别称为负类别。正类别是我们要寻找的类别，负类别则是另一种可能性。例如，在医学检查中，负类别可以是“非肿瘤”。在电子邮件分类器中，负类别可以是“非垃圾邮件”。另请参阅正类别。

神经网络 (neural network)

一种模型，灵感来源于脑部结构，由多个层构成（至少有一个是隐藏层），每个层都包含简单相连的单元或神经元（具有非线性关系）。

神经元 (neuron)

神经网络中的节点，通常是接收多个输入值并生成一个输出值。神经元通过将激活函数（非线性转换）应用于输入值的加权和来计算输出值。

节点 (node)

多含义术语，可以理解为下列两种含义之一：

隐藏层中的神经元。
TensorFlow 图中的操作。

标准化 (normalization)

将实际的值区间转换为标准的值区间（通常为 -1 到 +1 或 0 到 1）的过程。例如，假设某个特征的自然区间是 800 到 6000。通过减法和除法运算，您可以将这些值标准化为位于 -1 到 +1 区间内。

另请参阅缩放。

数值数据 (numerical data)

用整数或实数表示的特征。例如，在房地产模型中，您可能会用数值数据表示房子大小（以平方英尺或平方米为单位）。如果用数值数据表示特征，则可以表明特征的值相互之间具有数学关系，并且与标签可能也有数学关系。例如，如果用数值数据表示房子大小，则可以表明面积为 200 平方米的房子是面积为 100 平方米的房子的两倍。此外，房子面积的平方米数可能与房价存在一定的数学关系。

并非所有整数数据都应表示成数值数据。例如，世界上某些地区的邮政编码是整数，但在模型中，不应将整数邮政编码表示成数值数据。这是因为邮政编码 20000 在效力上并不是邮政编码 10000 的两倍（或一半）。此外，虽然不同的邮政编码确实与不同的房地产价值有关，但我们也不能假设邮政编码为 20000 的房地产在价值上是邮政编码为 10000 的房地产的两倍。邮政编码应表示成分类数据。

数值特征有时称为连续特征。

Numpy

一个开放源代码数学库，在 Python 中提供高效的数组操作。Pandas 就建立在 Numpy 之上。

O

目标 (objective)

算法尝试优化的指标。

离线推断 (offline inference)

生成一组预测，存储这些预测，然后根据需求检索这些预测。与在线推断相对。

one-hot 编码 (one-hot encoding)

一种稀疏向量，其中：

一个元素设为 1。
所有其他元素均设为 0。

one-hot 编码常用于表示拥有有限个可能值的字符串或标识符。例如，假设某个指定的植物学数据集记录了 15000 个不同的物种，其中每个物种都用独一无二的字符串标识符来表示。在特征工程过程中，您可能需要将这些字符串标识符编码为 one-hot 向量，向量的大小为 15000。

一对多 (one-vs.-all)

假设某个分类问题有 N 种可能的解决方案，一对多解决方案将包含 N 个单独的二元分类器 - 一个二元分类器对应一种可能的结果。例如，假设某个模型用于区分样本属于动物、蔬菜还是矿物，一对多解决方案将提供下列三个单独的二元分类器：

动物和非动物
蔬菜和非蔬菜
矿物和非矿物

在线推断 (online inference)

根据需求生成预测。与离线推断相对。

操作 (op, Operation)

TensorFlow 图中的节点。在 TensorFlow 中，任何创建、操纵或销毁张量的过程都属于操作。例如，矩阵相乘就是一种操作，该操作以两个张量作为输入，并生成一个张量作为输出。

优化器 (optimizer)

梯度下降法的一种具体实现。TensorFlow 的优化器基类是 tf.train.Optimizer。不同的优化器（tf.train.Optimizer 的子类）会考虑如下概念：

动量 (Momentum)
更新频率（AdaGrad = ADAptive GRADient descent； Adam = ADAptive with Momentum；RMSProp）
稀疏性/正则化 (Ftrl)
更复杂的计算方法（Proximal，等等）

甚至还包括 NN 驱动的优化器。

离群值 (outlier)

与大多数其他值差别很大的值。在机器学习中，下列所有值都是离群值。

绝对值很高的权重。
与实际值相差很大的预测值。
值比平均值高大约 3 个标准偏差的输入数据。

离群值常常会导致模型训练出现问题。

输出层 (output layer)

神经网络的“最后”一层，也是包含答案的层。

过拟合 (overfitting)

创建的模型与训练数据过于匹配，以致于模型无法根据新数据做出正确的预测。

P

Pandas

面向列的数据分析 API。很多机器学习框架（包括 TensorFlow）都支持将 Pandas 数据结构作为输入。请参阅 Pandas 文档。

参数 (parameter)

机器学习系统自行训练的模型的变量。例如，权重就是一种参数，它们的值是机器学习系统通过连续的训练迭代逐渐学习到的。与超参数相对。

参数服务器 (PS, Parameter Server)

一种作业，负责在分布式设置中跟踪模型参数。

参数更新 (parameter update)

在训练期间（通常是在梯度下降法的单次迭代中）调整模型参数的操作。

偏导数 (partial derivative)

一种导数，除一个变量之外的所有变量都被视为常量。例如，f(x, y) 对 x 的偏导数就是 f(x) 的导数（即，使 y 保持恒定）。f 对 x 的偏导数仅关注 x 如何变化，而忽略公式中的所有其他变量。

分区策略 (partitioning strategy)

参数服务器中分割变量的算法。

性能 (performance)

多含义术语，具有以下含义：

在软件工程中的传统含义。即：相应软件的运行速度有多快（或有多高效）？
在机器学习中的含义。在机器学习领域，性能旨在回答以下问题：相应模型的准确度有多高？即模型在预测方面的表现有多好？

困惑度 (perplexity)

一种衡量指标，用于衡量模型能够多好地完成任务。例如，假设任务是读取用户使用智能手机键盘输入字词时输入的前几个字母，然后列出一组可能的完整字词。此任务的困惑度 (P) 是：为了使列出的字词中包含用户尝试输入的实际字词，您需要提供的猜测项的个数。

困惑度与交叉熵的关系如下：

P=2−cross entropy

流水线 (pipeline)

机器学习算法的基础架构。流水线包括收集数据、将数据放入训练数据文件、训练一个或多个模型，以及将模型导出到生产环境。

正类别 (positive class)

在二元分类中，两种可能的类别分别被标记为正类别和负类别。正类别结果是我们要测试的对象。（不可否认的是，我们会同时测试这两种结果，但只关注正类别结果。）例如，在医学检查中，正类别可以是“肿瘤”。在电子邮件分类器中，正类别可以是“垃圾邮件”。

与负类别相对。

精确率 (precision)

一种分类模型指标。精确率指模型正确预测正类别的频率，即：

精确率真正例数真正例数假正例数精确率=真正例数真正例数+假正例数

预测 (prediction)

模型在收到输入的样本后的输出。

预测偏差 (prediction bias)

一个值，用于表明预测平均值与数据集中标签的平均值相差有多大。

预创建的 Estimator (pre-made Estimator)

其他人已建好的 Estimator。TensorFlow 提供了一些预创建的 Estimator，包括 DNNClassifier、DNNRegressor 和 LinearClassifier。您可以按照这些说明构建自己预创建的 Estimator。

预训练模型 (pre-trained model)

已经过训练的模型或模型组件（例如嵌套）。有时，您需要将预训练的嵌套馈送到神经网络。在其他时候，您的模型将自行训练嵌套，而不依赖于预训练的嵌套。

先验信念 (prior belief)

在开始采用相应数据进行训练之前，您对这些数据抱有的信念。例如，L2 正则化依赖的先验信念是权重应该很小且应以 0 为中心呈正态分布。

Q

队列 (queue)

一种 TensorFlow 操作，用于实现队列数据结构。通常用于 I/O 中。

R

等级 (rank)

机器学习中的一个多含义术语，可以理解为下列含义之一：

张量中的维度数量。例如，标量等级为 0，向量等级为 1，矩阵等级为 2。
在将类别从最高到最低进行排序的机器学习问题中，类别的顺序位置。例如，行为排序系统可以将狗狗的奖励从最高（牛排）到最低（枯萎的羽衣甘蓝）进行排序。

评分者 (rater)

为样本提供标签的人。有时称为“注释者”。

召回率 (recall)

一种分类模型指标，用于回答以下问题：在所有可能的正类别标签中，模型正确地识别出了多少个？即：

召回率真正例数真正例数假负例数召回率=真正例数真正例数+假负例数

修正线性单元 (ReLU, Rectified Linear Unit)

一种激活函数，其规则如下：

如果输入为负数或 0，则输出 0。
如果输入为正数，则输出等于输入。

回归模型 (regression model)

一种模型，能够输出连续的值（通常为浮点值）。请与分类模型进行比较，分类模型输出离散值，例如“黄花菜”或“虎皮百合”。

正则化 (regularization)

对模型复杂度的惩罚。正则化有助于防止出现过拟合，包含以下类型：

L1 正则化
L2 正则化
丢弃正则化
早停法（这不是正式的正则化方法，但可以有效限制过拟合）

正则化率 (regularization rate)

一种标量值，以 lambda 表示，用于指定正则化函数的相对重要性。从下面简化的损失公式中可以看出正则化率的影响：

minimize(loss function + λ(regularization function))

提高正则化率可以减少过拟合，但可能会使模型的准确率降低。

表示法 (representation)

将数据映射到实用特征的过程。

受试者工作特征曲线（receiver operating characteristic, 简称 ROC 曲线）

不同分类阈值下的真正例率和假正例率构成的曲线。另请参阅曲线下面积。

根目录 (root directory)

您指定的目录，用于托管多个模型的 TensorFlow 检查点和事件文件的子目录。

均方根误差 (RMSE, Root Mean Squared Error)

均方误差的平方根。

S

SavedModel

保存和恢复 TensorFlow 模型时建议使用的格式。SavedModel 是一种独立于语言且可恢复的序列化格式，使较高级别的系统和工具可以创建、使用和转换 TensorFlow 模型。

如需完整的详细信息，请参阅《TensorFlow 编程人员指南》中的保存和恢复。

Saver

一种 TensorFlow 对象，负责保存模型检查点。

缩放 (scaling)

特征工程中的一种常用做法，是对某个特征的值区间进行调整，使之与数据集中其他特征的值区间一致。例如，假设您希望数据集中所有浮点特征的值都位于 0 到 1 区间内，如果某个特征的值位于 0 到 500 区间内，您就可以通过将每个值除以 500 来缩放该特征。

另请参阅标准化。

scikit-learn

一个热门的开放源代码机器学习平台。请访问 www.scikit-learn.org。

半监督式学习 (semi-supervised learning)

训练模型时采用的数据中，某些训练样本有标签，而其他样本则没有标签。半监督式学习采用的一种技术是推断无标签样本的标签，然后使用推断出的标签进行训练，以创建新模型。如果获得有标签样本需要高昂的成本，而无标签样本则有很多，那么半监督式学习将非常有用。

序列模型 (sequence model)

一种模型，其输入具有序列依赖性。例如，根据之前观看过的一系列视频对观看的下一个视频进行预测。

会话 (session)

维持 TensorFlow 程序中的状态（例如变量）。

S 型函数 (sigmoid function)

一种函数，可将逻辑回归输出或多项回归输出（对数几率）映射到概率，以返回介于 0 到 1 之间的值。S 型函数的公式如下：

y=11+e−σ

在逻辑回归问题中，σ 非常简单：

σ=b+w1x1+w2x2+…wnxn

换句话说，S 型函数可将 σ 转换为介于 0 到 1 之间的概率。

在某些神经网络中，S 型函数可作为激活函数使用。

softmax

一种函数，可提供多类别分类模型中每个可能类别的概率。这些概率的总和正好为 1.0。例如，softmax 可能会得出某个图像是狗、猫和马的概率分别是 0.9、0.08 和 0.02。（也称为完整 softmax。）

与候选采样相对。

稀疏特征 (sparse feature)

一种特征向量，其中的大多数值都为 0 或为空。例如，某个向量包含一个为 1 的值和一百万个为 0 的值，则该向量就属于稀疏向量。再举一个例子，搜索查询中的单词也可能属于稀疏特征 - 在某种指定语言中有很多可能的单词，但在某个指定的查询中仅包含其中几个。

与密集特征相对。

平方合页损失函数 (squared hinge loss)

合页损失函数的平方。与常规合页损失函数相比，平方合页损失函数对离群值的惩罚更严厉。

平方损失函数 (squared loss)

在线性回归中使用的损失函数（也称为 L2 损失函数）。该函数可计算模型为有标签样本预测的值和标签的实际值之差的平方。由于取平方值，因此该损失函数会放大不佳预测的影响。也就是说，与 L1 损失函数相比，平方损失函数对离群值的反应更强烈。

静态模型 (static model)

离线训练的一种模型。

平稳性 (stationarity)

数据集中数据的一种属性，表示数据分布在一个或多个维度保持不变。这种维度最常见的是时间，即表明平稳性的数据不随时间而变化。例如，从 9 月到 12 月，表明平稳性的数据没有发生变化。

步 (step)

对一个批次的向前和向后评估。

步长 (step size)

是学习速率的同义词。

随机梯度下降法 (SGD, stochastic gradient descent)

批次规模为 1 的一种梯度下降法。换句话说，SGD 依赖于从数据集中随机均匀选择的单个样本来计算每步的梯度估算值。

结构风险最小化 (SRM, structural risk minimization)

一种算法，用于平衡以下两个目标：

期望构建最具预测性的模型（例如损失最低）。
期望使模型尽可能简单（例如强大的正则化）。

例如，旨在将基于训练集的损失和正则化降至最低的模型函数就是一种结构风险最小化算法。

如需更多信息，请参阅 Structural Risk Minimization – Support Vector Machines (SVMs)。

与经验风险最小化相对。

总结 (summary)

在 TensorFlow 中的某一步计算出的一个值或一组值，通常用于在训练期间跟踪模型指标。

监督式机器学习 (supervised machine learning)

根据输入数据及其对应的标签来训练模型。监督式机器学习类似于学生通过研究一系列问题及其对应的答案来学习某个主题。在掌握了问题和答案之间的对应关系后，学生便可以回答关于同一主题的新问题（以前从未见过的问题）。请与非监督式机器学习进行比较。

合成特征 (synthetic feature)

一种特征，不在输入特征之列，而是从一个或多个输入特征衍生而来。合成特征包括以下类型：

将一个特征与其本身或其他特征相乘（称为特征组合）。
两个特征相除。
对连续特征进行分桶，以分为多个区间分箱。

通过标准化或缩放单独创建的特征不属于合成特征。

T

目标 (target)

是标签的同义词。

时态数据 (temporal data)

在不同时间点记录的数据。例如，记录的一年中每一天的冬外套销量就属于时态数据。

张量 (Tensor)

TensorFlow 程序中的主要数据结构。张量是 N 维（其中 N 可能非常大）数据结构，最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。

张量处理单元 (TPU, Tensor Processing Unit)

一种 ASIC（应用专用集成电路），用于优化 TensorFlow 程序的性能。

张量等级 (Tensor rank)

请参阅等级。

张量形状 (Tensor shape)

张量在各种维度中包含的元素数。例如，张量 [5, 10] 在一个维度中的形状为 5，在另一个维度中的形状为 10。

张量大小 (Tensor size)

张量包含的标量总数。例如，张量 [5, 10] 的大小为 50。

TensorBoard

一个信息中心，用于显示在执行一个或多个 TensorFlow 程序期间保存的摘要信息。

TensorFlow

一个大型的分布式机器学习平台。该术语还指 TensorFlow 堆栈中的基本 API 层，该层支持对数据流图进行一般计算。

虽然 TensorFlow 主要应用于机器学习领域，但也可用于需要使用数据流图进行数值计算的非机器学习任务。

TensorFlow Playground

一款用于直观呈现不同的超参数对模型（主要是神经网络）训练的影响的程序。要试用 TensorFlow Playground，请前往 http://playground.tensorflow.org。

TensorFlow Serving

一个平台，用于将训练过的模型部署到生产环境。

测试集 (test set)

数据集的子集，用于在模型经由验证集的初步验证之后测试模型。

与训练集和验证集相对。

tf.Example

一种标准的 proto buffer，旨在描述用于机器学习模型训练或推断的输入数据。

时间序列分析 (time series analysis)

机器学习和统计学的一个子领域，旨在分析时态数据。很多类型的机器学习问题都需要时间序列分析，其中包括分类、聚类、预测和异常检测。例如，您可以利用时间序列分析根据历史销量数据预测未来每月的冬外套销量。

训练 (training)

确定构成模型的理想参数的过程。

训练集 (training set)

数据集的子集，用于训练模型。

与验证集和测试集相对。

转移学习 (transfer learning)

将信息从一个机器学习任务转移到另一个机器学习任务。例如，在多任务学习中，一个模型可以完成多项任务，例如针对不同任务具有不同输出节点的深度模型。转移学习可能涉及将知识从较简单任务的解决方案转移到较复杂的任务，或者将知识从数据较多的任务转移到数据较少的任务。

大多数机器学习系统都只能完成一项任务。转移学习是迈向人工智能的一小步；在人工智能中，单个程序可以完成多项任务。

真负例 (TN, true negative)

被模型正确地预测为负类别的样本。例如，模型推断出某封电子邮件不是垃圾邮件，而该电子邮件确实不是垃圾邮件。

真正例 (TP, true positive)

被模型正确地预测为正类别的样本。例如，模型推断出某封电子邮件是垃圾邮件，而该电子邮件确实是垃圾邮件。

真正例率（true positive rate, 简称 TP 率）

是召回率的同义词，即：

真正例率真正例数真正例数假负例数真正例率=真正例数真正例数+假负例数

真正例率是 ROC 曲线的 y 轴。

U

无标签样本 (unlabeled example)

包含特征但没有标签的样本。无标签样本是用于进行推断的输入内容。在半监督式和非监督式学习中，无标签样本在训练期间被使用。

非监督式机器学习 (unsupervised machine learning)

训练模型，以找出数据集（通常是无标签数据集）中的模式。

非监督式机器学习最常见的用途是将数据分为不同的聚类，使相似的样本位于同一组中。例如，非监督式机器学习算法可以根据音乐的各种属性将歌曲分为不同的聚类。所得聚类可以作为其他机器学习算法（例如音乐推荐服务）的输入。在很难获取真标签的领域，聚类可能会非常有用。例如，在反滥用和反欺诈等领域，聚类有助于人们更好地了解相关数据。

非监督式机器学习的另一个例子是主成分分析 (PCA)。例如，通过对包含数百万购物车中物品的数据集进行主成分分析，可能会发现有柠檬的购物车中往往也有抗酸药。

请与监督式机器学习进行比较。

V

验证集 (validation set)

数据集的一个子集，从训练集分离而来，用于调整超参数。

与训练集和测试集相对。

W

权重 (weight)

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

宽度模型 (wide model)

一种线性模型，通常有很多稀疏输入特征。我们之所以称之为“宽度模型”，是因为这是一种特殊类型的神经网络，其大量输入均直接与输出节点相连。与深度模型相比，宽度模型通常更易于调试和检查。虽然宽度模型无法通过隐藏层来表示非线性关系，但可以利用特征组合、分桶等转换以不同的方式为非线性关系建模。

与深度模型相对。

原文链接地址：Google发布机器学习术语表 (中英对照）

机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)

Letter A

absolute绝对的 
abstract提取 
accumulated error backpropagation 累积误差逆传播 
activation function 激活函数 
activation 激活值
adaptive resonance theory/art 自适应谐振理论 
addictive model 加性学习 
additive noise 加性噪声
adversarial networks 对抗网络 
affine layer 仿射层 
affine仿射的 
affinity matrix 亲和矩阵 
agent 代理 / 智能体 
algebra线性代数 
algorithm 算法 
alpha-beta pruning α-β剪枝 
amenable经得起检验的 
amino acid氨基酸 
anomaly detection 异常检测 
appropriate恰当的
approximations近似值 
arbitrary任意的 
architecture架构 体系结构 建造业 
area under roc curve／auc roc 曲线下面积 
arsenal军火库 
artificial general intelligence/agi 通用人工智能 
artificial intelligence/ai 人工智能 
assignment分配 
association analysis 关联分析 
asymptotically无症状的 
attention mechanism 注意力机制 
attribute conditional independence assumption 属性条件独立性假设 
attribute space 属性空间 
attribute value 属性值 
autoencoder 自编码器 
autoencoders 自编码算法
automatic speech recognition 自动语音识别 
automatic summarization 自动摘要 
average firing rate 平均激活率
average gradient 平均梯度 
average sum-of-squares error 均方差
average-pooling 平均池化
axiom公理 原则

Letter B

backpropagation through time 通过时间的反向传播 
backpropagation 后向传播
backpropagation/bp 反向传播 
base learner 基学习器 
base learning algorithm 基学习算法 
basis feature vectors 特征基向量
basis 基
batch gradient ascent 批量梯度上升法
batch normalization/bn 批量归一化 
batch批量
bayes decision rule 贝叶斯判定准则 
bayes model averaging／bma 贝叶斯模型平均 
bayes optimal classifier 贝叶斯最优分类器 
bayesian decision theory 贝叶斯决策论 
bayesian network 贝叶斯网络 
bayesian regularization method 贝叶斯规则化方法
bernoulli random variable 伯努利随机变量
between-class scatter matrix 类间散度矩阵 
bias term 偏置项
bias 偏置 / 偏差 
bias-variance decomposition 偏差-方差分解 
bias-variance dilemma 偏差 – 方差困境 
bias偏差 
bi-directional long-short term memory/bi-lstm 双向长短期记忆 
binary classfication 二元分类
binomial test 二项检验 
bi-partition 二分法 
boltzmann machine 玻尔兹曼机 
bootstrap sampling 自助采样法／可重复采样／有放回采样 
bootstrapping 自助法 
break-event point／bep 平衡点
brevity简短 简洁 短暂 
briefly简短的 
broader广泛

Letter C


calculus计算
calibration 校准 
canonical正规的 正则的 
cascade-correlation 级联相关 
categorical attribute 离散属性 
centroids 质心 形心 
class labels 类型标记
class-conditional probability 类条件概率 
classification and regression tree/cart 分类与回归树 
classifier 分类器 
class-imbalance 类别不平衡 
clipping剪下物 剪报 修剪 
closed -form 闭式 
cluster analysis 聚类分析 
cluster 簇/类/集群 
clustering ensemble 聚类集成 
clustering 聚类 
cluster一簇 
co-adapting 共适应 
coding matrix 编码矩阵 
colt 国际学习理论会议 
commercial商务的 
committee-based learning 基于委员会的学习 
competitive learning 竞争型学习 
complementarity补充 
component learner 组件学习器 
component分量 部件 
comprehensibility 可解释性 
computation cost 计算成本 
computational linguistics 计算语言学 
computationally计算(机)的 
computer vision 计算机视觉 
concatenation 级联
concave非凸的 
concept drift 概念漂移 
concept learning system /cls 概念学习系统 
concrete具体的事物 实在的东西 
conditional entropy 条件熵 
conditional mutual information 条件互信息 
conditional probability table／cpt 条件概率表 
conditional random field/crf 条件随机场 
conditional risk 条件风险 
confidence 置信度 
confusion matrix 混淆矩阵 
conjugate gradient 共轭梯度
connection weight 连接权 
connectionism 连结主义 
consistency 一致性／相合性 
constant常理 
constraint约束 
contiguous groups 联通区域
contingency table 列联表 
continuous attribute 连续属性 
continuous连续的 
contours轮廓 
convention约定 
convergence 收敛 
convergence 收敛 集中到一点 
converge收敛 
conversational agent 会话智能体 
convex optimization software 凸优化软件
convex quadratic programming 凸二次规划 
convexity 凸性 
convex凸的 
convolution 卷积
convolutional neural network/cnn 卷积神经网络 
co-occurrence 同现 
coordinate ascent同等级上升 
corollary推论 
correlation coefficient 相关系数 
correlation相互关系 
corresponds相符合 相当 通信 
cosine similarity 余弦相似度 
cost curve 成本曲线 
cost function 成本函数 
cost function 代价函数
cost matrix 成本矩阵 
cost-sensitive 成本敏感 
covariance matrix 协方差矩阵
covariance协方差 
cross entropy 交叉熵 
cross validation 交叉验证 
cross validation交叉验证 
crowdsourcing 众包 
curse of dimensionality 维数灾难 
cut point 截断点 
cutting plane algorithm 割平面法

Letter D

data mining 数据挖掘 
data set 数据集 
dc component 直流分量
decision boundary 决策边界 
decision stump 决策树桩 
decision tree 决策树／判定树 
decorrelation 去相关
deduction 演绎 
deep belief network 深度信念网络 
deep convolutional generative adversarial network/dcgan 深度卷积生成对抗网络 
deep learning 深度学习 
deep neural network/dnn 深度神经网络 
deep q-learning 深度 q 学习 
deep q-network 深度 q 网络 
degeneracy 退化
demensionality reduction          降维
demensionality reduction 降维
denote预示 表示 是…的标志 意味着 [逻]指称 
density estimation 密度估计 
density-based clustering 密度聚类 
density概率密度函数 
derivation求导 得到 起源 
derivative 导函数
derive获得 取得 
determinant决定因素 
diagonal                          对角线
diagonal 对角线
diagonal对角 
differentiable neural computer 可微分神经计算机 
diffusion of gradients 梯度的弥散
dimensionality reduction algorithm 降维算法 
dimension尺度 规格 维数 
directed edge 有向边 
disagreement measure 不合度量 
discrete离散的 
discriminative model 判别模型 
discriminative有识别能力的 
discriminator 判别器 
disjoint不相交的
dispersion分散 散开 
distance measure 距离度量 
distance metric learning 距离度量学习 
distortion变形 
distribution 分布 
divergence 散度 
divergence 散度 发散性 
diversity measure 多样性度量／差异性度量 
domain adaption 领域自适应 
dot小圆点 
downsampling 下采样 
d-separation （directed separation） 有向分离 
dual problem 对偶问题 
duality二元性 二象性 对偶性 
dual二元的 
dummy node 哑结点 
dynamic fusion 动态融合 
dynamic programming 动态规划

Letter E

efficient生效的 
eigenvalue decomposition 特征值分解 
eigenvalue 特征值
eigenvector 特征向量
ellipses椭圆 
embedding 嵌入 
emotional analysis 情绪分析 
empirical conditional entropy 经验条件熵 
empirical entropy 经验熵 
empirical error 经验误差 
empirical risk 经验风险 
empirical经验 观察 
encounter遇到 
endow赋予 
end-to-end 端到端 
energy-based model 基于能量的模型 
ennmerate例举 计数 
ensemble learning 集成学习 
ensemble pruning 集成修剪 
equality等式 
equivalently等价的
error correcting output codes／ecoc 纠错输出码 
error rate 错误率 
error term 残差
error-ambiguity decomposition 误差-分歧分解 
euclidean distance 欧氏距离 
evolutionary computation 演化计算 
exceed超过 越出 
expectation-maximization 期望最大化 
expectation期望 
expected loss 期望损失 
explicitly清楚的 
exploding gradient problem 梯度爆炸问题 
exponential family指数家族 
exponential loss function 指数损失函数 
extra额外的 
extreme learning machine/elm 超限学习机

Letter F


factorization 因子分解 
false negative 假负类 
false positive rate/fpr 假正例率 
false positive 假正类 
feasible可行的 
feature engineering 特征工程 
feature matrix 特征矩阵
feature selection 特征选择 
feature standardization 特征标准化
feature vector 特征向量 
featured learning 特征学习 
feedforward architectures 前馈结构算法
feedforward neural network 前馈神经网络
feedforward neural networks/fnn 前馈神经网络 
feedforward pass 前馈传导
fine-tuned 微调
fine-tuning 微调 
finite有限的 限定的 
first-order feature 一阶特征
flipping output 翻转法 
fliter过滤 
fluctuation 震荡 
forary初次尝试 
forgo摒弃 放弃 
formalize使定形
forward pass 前向传导
forward propagation 前向传播
forward search前向式搜索 
forward stagewise algorithm 前向分步算法 
frequentist 频率主义学派 
frequentist最常发生的 
full-rank matrix 满秩矩阵 
functional neuron 功能神经元

Letter G

gain ratio 增益率 
game theory 博弈论 
gap裂口 
gaussian kernel function 高斯核函数 
gaussian mixture model 高斯混合模型 
gaussian prior 高斯先验概率
general problem solving 通用问题求解 
generalization error bound 泛化误差上界 
generalization error 泛化误差 
generalization 泛化 
generalization概括 归纳 普遍化 判断（根据不足） 
generalized lagrange function 广义拉格朗日函数 
generalized linear model 广义线性模型 
generalized rayleigh quotient 广义瑞利商 
generalized归纳的 
generate形成 产生 
generative adversarial networks/gan 生成对抗网络 
generative model 生成模型
generative生产的 有生产力的
generator 生成器 
genetic algorithm/ga 遗传算法 
geometric margins几何边界 
gibbs sampling 吉布斯采样 
gini index 基尼指数 
global minimum 全局最小 
global optimization 全局优化 
gradient boosting 梯度提升 
gradient descent 梯度下降 
graph theory 图论 
greedy layer-wise training 逐层贪婪训练方法
ground-truth 真相／真实
grouping matrix 分组矩阵
guarantee保证 抵押品

Letter H


hadamard product 阿达马乘积
hard margin 硬间隔 
hard voting 硬投票 
harmonic mean 调和平均 
hesse matrix 海塞矩阵 
hessian matrix hessian 矩阵
heuristic启发式的 启发法 启发程序 
hidden dynamic model 隐动态模型 
hidden layer 隐藏层 
hidden markov model/hmm 隐马尔可夫模型 
hidden units 隐藏神经元
hierarchical clustering 层次聚类 
hierarchical grouping 层次型分组
higher-order features 更高阶特征
highly non-convex optimization problem 高度非凸的优化问题
hilbert space 希尔伯特空间 
hinge loss function 合页损失函数 
histogram 直方图
hold-out 留出法 
homogeneous 同质 
hone怀恋 磨 
hybrid computing 混合计算 
hyperbolic tangent 双曲正切函数
hyperparameter 超参数 
hyperplane超平面
hypothesis test 假设验证
hypothesis 估值 假设
hypothesis 假设

Letter I

icml 国际机器学习会议 
identical相等的 完全相同的 
identity activation function 恒等激励函数
iid 独立同分布
illumination 照明
implement执行 
impose把…强加于 
improved iterative scaling/iis 改进的迭代尺度法 
inactive 抑制
incremental learning 增量学习 
incremental增加的 
independent and identically distributed/i.i.d. 独立同分布 
independent component analysis/ica 独立成分分析 
indicate表示 指出 
indicator function 指示函数 
indicator指示物 指示器 
individual learner 个体学习器 
induction 归纳 
inductive bias 归纳偏好 
inductive learning 归纳学习 
inductive logic programming／ilp 归纳逻辑程序设计 
information entropy 信息熵 
information gain 信息增益 
initial最初的 
input domains 输入域
input layer 输入层 
insensitive loss 不敏感损失 
instantiation例子 
integral积分 
intensity 亮度/灰度
interative重复的 迭代的 
intercept term 截距
intercept截距 
inter-cluster similarity 簇间相似度 
intermediate中间的 
international conference for machine learning/icml 国际机器学习大会 
interpretation解释 翻译
intra-cluster similarity 簇内相似度 
intrinsic value 固有值 
intuitious直觉 
intuitive凭直觉获知的 
invariance不变性 恒定性 
isometric mapping/isomap 等度量映射 
isotonic regression 等分回归 
iterative dichotomiser 迭代二分器

Letter J

joint distribution联合概率

Letter K


kernel method 核方法 
kernel trick 核技巧 
kernelized linear discriminant analysis／klda 核线性判别分析 
k-fold cross validation k 折交叉验证／k 倍交叉验证 
kl divergence kl分散度
kl divergence 相对熵
k-means clustering k – 均值聚类 
k-means k-均值
k-nearest neighbours algorithm/knn k近邻算法 
knowledge base 知识库 
knowledge representation 知识表征

Letter L

label space 标记空间 
lagrange duality 拉格朗日对偶性 
lagrange multiplier 拉格朗日乘子 
laplace smoothing 拉普拉斯平滑 
laplacian correction 拉普拉斯修正 
latent dirichlet allocation 隐狄利克雷分布 
latent semantic analysis 潜在语义分析 
latent variable 隐变量 
latent潜在的 
lazy learning 懒惰学习 
learner 学习器 
learning by analogy 类比学习 
learning rate 学习率 
learning rate 学习速率
learning vector quantization/lvq 学习向量量化 
least squares regression tree 最小二乘回归树 
least squares 最小二乘法
leave-one-out cross validation留一法交叉验证
leave-one-out/loo 留一法 
lieu替代 
linear chain conditional random field 线性链条件随机场 
linear correspondence 线性响应
linear discriminant analysis／lda 线性判别分析 
linear model 线性模型 
linear regression 线性回归 
linear superposition 线性叠加
line-search algorithm 线搜索算法
link function 联系函数 
local markov property 局部马尔可夫性 
local mean subtraction 局部均值消减
local minimum 局部最小 
local optima 局部最优解
log likelihood 对数似然 
log odds／logit 对数几率 
logarithmic对数的 用对数表示的 
logistic regression logistic 回归 
logistic regression 逻辑回归
log-likelihood 对数似然 
log-linear regression 对数线性回归 
long-short term memory/lstm 长短期记忆 
loss function 损失函数
loss function 损失函数
low-pass filtering 低通滤波

Letter M

machine translation/mt 机器翻译 
macron-p 宏查准率 
macron-r 宏查全率 
magnitude 幅值
magnitude巨大 
majority voting 绝对多数投票法 
manifold assumption 流形假设 
manifold learning 流形学习 
map 极大后验估计
mapping绘图 制图 映射 
margin theory 间隔理论 
marginal distribution 边际分布 
marginal independence 边际独立性 
marginalization 边际化 
markov chain monte carlo/mcmc 马尔可夫链蒙特卡罗方法 
markov random field 马尔可夫随机场 
matrix矩阵 
maximal clique 最大团 
maximum likelihood estimation 极大似然估计
maximum likelihood estimation/mle 极大似然估计／极大似然法 
maximum margin 最大间隔 
maximum weighted spanning tree 最大带权生成树 
max-pooling 最大池化 
mean squared error 均方误差 
mean 平均值
meta-learner 元学习器 
metric learning 度量学习 
mfcc mel 倒频系数
mfcc	mel                       倒频系数
micro-p 微查准率 
micro-r 微查全率 
minimal description length/mdl 最小描述长度 
minimax game 极小极大博弈 
minor较小的 次要的 
misclassification cost 误分类成本 
mixture of experts 混合专家 
momentum 动量 
monotonically单调的 
moral graph 道德图／端正图 
multi-class classification 多分类 
multi-class classification 多元分类
multi-class classification二分类问题
multi-document summarization 多文档摘要 
multi-layer feedforward neural networks 多层前馈神经网络 
multilayer perceptron/mlp 多层感知器 
multimodal learning 多模态学习 
multinomial多项的 
multiple dimensional scaling 多维缩放 
multiple linear regression 多元线性回归 
multi-response linear regression ／mlr 多响应线性回归 
mutual information 互信息
mutual相互的 共同的

Letter N

naive bayes classifier 朴素贝叶斯分类器 
naive bayes 朴素贝叶斯 
nave朴素的
named entity recognition 命名实体识别 
nash equilibrium 纳什均衡 
nasty讨厌的 
natural language generation/nlg 自然语言生成 
natural language processing 自然语言处理 
negative class 负类 
negative correlation 负相关法 
negative log likelihood 负对数似然 
neighbourhood component analysis/nca 近邻成分分析 
neural machine translation 神经机器翻译 
neural networks 神经网络
neural turing machine 神经图灵机 
neuron 神经元
newton method 牛顿法 
newton’s method 牛顿法
nips 国际神经信息处理系统会议 
no free lunch theorem／nfl 没有免费的午餐定理 
noise-contrastive estimation 噪音对比估计 
nominal attribute 列名属性 
non-convex function 非凸函数
non-convex optimization 非凸优化 
non-linear feature 非线性特征
nonlinear model 非线性模型 
non-metric distance 非度量距离 
non-negative matrix factorization 非负矩阵分解 
non-ordinal attribute 无序属性 
non-saturating game 非饱和博弈 
norm bounded 有界范数
norm constrained 范数约束
norm 范式
normalization 归一化 
notation标志 注释 
nuclear norm 核范数 
numerical attribute 数值属性
numerical roundoff errors 数值舍入误差
numerically checking 数值检验
numerically reliable 数值计算上稳定

Letter O

object detection 物体检测
objective function 目标函数 
oblique decision tree 斜决策树 
obtain得到 
occam’s razor 奥卡姆剃刀 
occasionally偶然的
odds 几率 
off-by-one error 缺位错误
off-policy 离策略 
one shot learning 一次性学习 
one-dependent estimator／ode 独依赖估计 
on-policy 在策略 
optimal最理想的 
optimization problem最优化问题 
ordinal attribute 有序属性 
ordinary普通的 
orientation方向 
orthogonal(矢量 矩阵等)正交的 
orthogonalization 正交化
oscillate摆动 
out-of-bag estimate 包外估计 
output layer 输出层 
output smearing 输出调制法 
overall cost function 总体代价函数
over-complete basis 超完备基
over-fitting 过拟合
overfitting 过拟合／过配 
oversampling 过采样

Letter P

paired t-test 成对 t 检验 
pairwise markov property 成对马尔可夫性 
pairwise 成对型 
parameter estimation 参数估计 
parameter tuning 调参 
parameter 参数 
parameterize确定…的参数 
parentheses圆括号 
parse tree 解析树 
partial derivative偏导数 
particle swarm optimization/pso 粒子群优化算法 
part-of-speech tagging 词性标注 
parts of objects 目标的部件
part-whole decompostion 部分-整体分解
pca 主元分析
penalty term 惩罚因子
perceptron 感知机 
per-example mean subtraction 逐样本均值消减
performance measure 性能度量 
permissible可允许的 
permit允许 
pertinent相关的
perturbation 不安 扰乱 
pictorially图像的 
plementarity补充 
plug and play generative network 即插即用生成网络 
plurality voting 相对多数投票法 
poisson distribution柏松分布 
poist假定 设想 
polarity detection 极性检测 
polynomial kernel function 多项式核函数 
polynomial多项式 
pooling 池化 
positive class 正类 
positive definite matrix 正定矩阵 
positive semi-definite半正定的 
posterior probability后验概率 
post-hoc test 后续检验 
post-pruning 后剪枝 
potential function 势函数 
precision 查准率／准确率 
precision精度 
preliminary预备 
prepruning 预剪枝 
pretrain 预训练
primal原始的 最初的 
principal component analysis/pca 主成分分析 
principal components analysis 主成份分析
principle of multiple explanations 多释原则 
prior 先验 
probability graphical model 概率图模型 
property性质 
proportional成比例的 
proximal gradient descent/pgd 近端梯度下降 
pruning 剪枝 
pseudocode伪代码 
pseudo-label 伪标记

Letter Q

quadratic constraints 二次约束
quadratic二次的 
quantity量 数量 分量 
quantized neural network 量子化神经网络 
quantum computer 量子计算机 
quantum computing 量子计算 
quasi newton method 拟牛顿法
query疑问的

Letter R

radial basis function／rbf 径向基函数 
random forest algorithm 随机森林算法 
random variable随机变量 
random walk 随机漫步 
rbms 受限boltzman机
recall 查全率／召回率 
receiver operating characteristic/roc 受试者工作特征 
reconstruction based models 基于重构的模型
reconstruction cost 重建代价
reconstruction term 重构项
rectified linear unit/relu 线性修正单元 
recurrent neural network 循环神经网络 
recursive neural network 递归神经网络 
redundant 冗余
redundant过多的 冗余的
reference model 参考模型 
reflection matrix 反射矩阵
regression 回归 
regularization term 正则化项
regularization 正则化 
regularization使系统化 调整 
reinforcement learning/rl 强化学习 
remark注意 
reminiscent回忆往事的 提醒的 使人联想…的（of） 
reoptimize重新优化 
representation learning 表征学习 
representer theorem 表示定理 
reproducing kernel hilbert space/rkhs 再生核希尔伯特空间 
re-sampling 重采样法 
rescaling 缩放
residual mapping 残差映射 
residual network 残差网络 
respectively各自的 分别的 
respect考虑 
restricted boltzmann machine/rbm 受限玻尔兹曼机 
restricted isometry property/rip 限定等距性 
restrict限制 限定 约束 
re-weighting 重赋权法 
robust 鲁棒性
robustness 稳健性/鲁棒性 
root node 根结点 
rule engine 规则引擎 
rule learning 规则学习
run 行程

Letter S

saddle point 鞍点 
sample space 样本空间 
sampling 采样 
scale标度 
scarce稀有的 难得的 
score function 评分函数 
second-order feature 二阶特征
self-driving 自动驾驶 
self-organizing map／som 自组织映射 
semi-naive bayes classifiers 半朴素贝叶斯分类器 
semi-supervised learning 半监督学习 
semi-supervised support vector machine 半监督支持向量机 
sentiment analysis 情感分析 
separating hyperplane 分离超平面 
sigmoid activation function s型激励函数
sigmoid function sigmoid 函数 
significant digits 有效数字
similarity measure 相似度度量 
simulated annealing 模拟退火 
simultaneous localization and mapping 同步定位与地图构建 
simultaneously同时发生地 同步地 
singular value decomposition 奇异值分解 
singular value 奇异值
singular vector 奇异向量
slack variables 松弛变量 
smoothed l1 penalty 平滑的l1范数惩罚
smoothed topographic l1 sparsity penalty 平滑地形l1稀疏惩罚函数
smoothing 平滑 
soft margin maximization 软间隔最大化 
soft margin 软间隔 
soft voting 软投票 
softmax regresson softmax回归
sophisticated复杂的 
sort of有几分的 
sorted in decreasing order 降序排列
source features 源特征
sparse autoencoder 消减归一化
sparse representation 稀疏表征 
sparsity parameter 稀疏性参数
sparsity penalty 稀疏惩罚
sparsity 稀疏性 
specialization 特化 
spectral clustering 谱聚类 
speech recognition 语音识别 
splitting variable 切分变量 
split分解 分离 
spurious假的 伪造的 
square function 平方函数
squared-error 方差
squares平方
squashing function 挤压函数 
stability-plasticity dilemma 可塑性-稳定性困境 
stationary stochastic process 平稳随机过程
stationary 平稳性（不变性）
statistical learning 统计学习 
statistic统计量 
status feature function 状态特征函 
step-size 步长值
stochastic gradient descent 随机梯度下降 
stochastic可能的 随机的 
stratified sampling 分层采样 
structural risk minimization/srm 结构风险最小化 
structural risk 结构风险 
subset子集 
subspace 子空间 
subtract减去 减法器 
successive iteratious连续的迭代 
suffice满足 
supervised learning 监督学习／有导师学习 
support vector expansion 支持向量展式 
support vector machine/svm 支持向量机 
surrogat loss 替代损失 
surrogate function 替代函数 
susceptible敏感的 
symbolic learning 符号学习 
symbolism 符号主义 
symmetric positive semi-definite matrix 对称半正定矩阵
symmetric对称的 
symmetry breaking 对称失效
synset 同义词集

Letter T


tangent正弦
tanh function 双曲正切函数
t-distribution stochastic neighbour embedding/t-sne t – 分布随机近邻嵌入 
temporarily暂时的 
tensor processing units/tpu 张量处理单元 
tensor 张量 
terminology专用名词 
the average activation 平均活跃度
the derivative checking method 梯度验证方法
the empirical distribution 经验分布函数
the energy function 能量函数
the lagrange dual 拉格朗日对偶函数
the least square method 最小二乘法 
the log likelihood 对数似然函数
the pixel intensity value 像素灰度值
the rate of convergence 收敛速度
theorem定理 
threshold logic unit 阈值逻辑单元 
threshold 阈值 
threshold-moving 阈值移动 
threshold阈 临界 
thumb翻阅 
time step 时间步骤 
tokenization 标记化 
tolerance容忍 公差 
topographic cost term 拓扑代价项
topographic ordered 拓扑秩序
training error 训练误差 
training instance 训练示例／训练例 
trajectory轨迹 
transductive learning 直推学习 
transfer learning 迁移学习 
transformation 变换
translation invariant 平移不变性
treebank 树库 
tria-by-error 试错法 
trivial answer 平凡解
true negative 真负类 
true positive rate/tpr 真正例率 
true positive 真正类 
turing machine 图灵机 
twice-learning 二次学习

Letter U

under-complete basis 不完备基
underfitting 欠拟合／欠配 
undersampling 欠采样 
understandability 可理解性 
unequal cost 非均等代价 
unit-length vector单位向量
unit-step function 单位阶跃函数 
univariate decision tree 单变量决策树 
unrolling 组合扩展
unsupervised layer-wise training 无监督逐层训练 
unsupervised learning 无监督学习
unsupervised learning 无监督学习／无导师学习 
upsampling 上采样

Letter V

valid有效的 正确的 
valued经估价的 宝贵的
vanishing gradient problem 梯度消失问题 
variable变量 变元 
variance 方差
variational inference 变分推断 
vc theory vc维理论 
vecotrized implementation 向量化实现
vectorization 矢量化
version space 版本空间 
visual cortex 视觉皮层
viterbi algorithm 维特比算法 
vocabulary词汇 
von neumann architecture 冯 · 诺伊曼架构

Letter W

wasserstein gan/wgan wasserstein生成对抗网络 
weak learner 弱学习器 
weight decay 权重衰减
weight sharing 权共享 
weight 权重 
weighted average 加权平均值
weighted voting 加权投票法 
whitening 白化
within-class scatter matrix 类内散度矩阵 
word embedding 词嵌入 
word sense disambiguation 词义消歧
wrapper包装

Letter Z

zero-data learning 零数据学习 
zero-mean 均值为零
zero-shot learning 零次学习

一个处女座的程序猿

关注

16
点赞
踩
50

收藏

觉得还不错? 一键收藏
打赏
1
评论
AI：人工智能的简介之AI领域基础概念术语解释之《Google发布机器学习术语表 (中英对照）》、机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)

AI：人工智能的简介之AI领域基础概念术语解释之《Google发布机器学习术语表 (中英对照）》、机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)目录机器学习术语表
复制链接

扫一扫