机器学习常用基本数学符号概括总结

最新推荐文章于 2025-03-28 09:50:57 发布

绎岚科技

最新推荐文章于 2025-03-28 09:50:57 发布

阅读量1.6k

点赞数 13

分类专栏：机器学习深度学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/benny_zhou2004/article/details/139673749

版权

机器学习同时被 2 个专栏收录

178 篇文章

订阅专栏

深度学习

149 篇文章

订阅专栏

序言

在阅读机器学习的描述时，我们无法避免遇到各种数学符号。通常只要方程中的一个项或一个符号片段即可完全影响我们对整个过程的理解。这可能非常令人沮丧，尤其是适用于来自开发领域的机器学习初学者。如果我们了解数学符号的一些基本领域和一些工作技巧，则可以取得进步。学完本文后，将了解：

算术符号，包括乘法、指数、根和对数
序列和集合的表示法，包括索引、求和和集合关系

概述

数学符号
算术符号
希腊字母
序列符号
集合符号
其他符号

数学符号

在阅读有关机器学习算法的资料时，将遇到数学符号。例如，符号可能用于：

描述一个算法
描述数据准备
描述结果
描述测试框架
描述含义

这些描述可能出现在研究论文、教科书、博客文章等地方。通常术语定义清晰，但也有一些数学符号规范我们可能不熟悉。只要有一个术语或一个方程式不懂，我们对于整个方法的理解就会丢失。我自己就遇到过很多次这样的问题，这真是令人无比沮丧！以下我们将回顾一些基本的数学符号，这将有助于我们在阅读有关机器学习方法的描述时更好地理解。

算术符号

1. 简单算术

基本的算术运算符号写法。例如：
加法：24 + 1 = 25
减法：24 − 1 = 23
乘法：24 × 2 = 48
除法：24 ÷ 2 = 12，也可以 $\frac{24}{2} = 12$
注：上述运算符号，对应的LeTax写法，如下：

加法：$24 + 1 = 25$
减法：$24 - 1 = 23$
乘法：$24 \times 2 = 48$
除法：$\frac{24}{2} = 12$

大多数数学运算都有相应的逆运算，例如减法是加法的逆运算，除法是乘法的逆运算。

2. 代数

我们经常想要抽象地描述操作，以便将它们与特定的数据或特定的实现分开。因此，我们看到了大量的代数使用，即使用大小写字母或单词来表示数学符号中的项或概念。在数学中，也经常使用希腊字母。每个数学子领域可能都有自己的保留字母，即始终具有相同含义的术语或字母。尽管如此，代数术语应该作为描述的一部分进行定义，如果它们没有定义，那可能只是描述得不好，而不是你的错。

3. 乘法符号

乘法是一个常见的符号，并且有几个简写形式。通常使用一个小写的"x"(×)或者一个星号"*"来表示乘法：c = a × b 或者 c = a ∗ b
可能会看到使用点表示法，例如：c = a · b
另外，也可能会看到没有运算符和之前定义的术语之间没有空格分隔的情况，例如：c = ab
注：上述涉及到符号和公式对应的LeTax写法，如下：

$\times$
$\ast$
$c = a \times b$
$c = a * b$
$c = a \cdot b$
$c = ab$

4. 指数和平方根

指数

指数是一个数被提升到的幂。这种表示法是将原始数字或基数写在一个上面，第二个数字或指数写在一个上标中。例如：
$2^3 = 2 \times 2 \times 2 = 8$ ，也就是2的三次方或立方。
又如，一个数的平方： $2^2 = 2 \times 2 = 4$

平方根

一个数的平方可以通过计算平方根来反转。例如： $\sqrt{4} = 2$
我们可以根据已知结果和指数，找到基数。实际上，根操作可以用来反转任何指数，只是默认的平方根假设指数为2，这在平方根符号前面用下标2表示。

注：上述涉及到公式对应的LeTax写法，如下：

$2^3 = 2 \times 2 \times 2 = 8$ 
$2^2 = 2 \times 2 = 4$
$\sqrt{4} = 2$

5. 对数和自然常数e

对数

当我们将10提升到一个整数指数时，我们通常称这为数量级。例如： $10^2 = 10 \times 10$ 。
反转这个操作的另一种方法是通过计算结果100的对数，假设基数为10。在表示法中，写作： $log_{10}()$ ，则 $log_{10} (100) = 2$ 。
在这里，我们可以根据已知道结果和基数，找到指数。这使我们能够非常容易地上下移动数量级。
假设基数为2的对数也常用，考虑到计算机中使用的二进制算术。例如： $2^6 = 64$ ， $log_2 (64) = 6$

自然常数e

另一个流行的对数是假设自然基数 $e$ 。 $e$ 是保留的，是一个特殊的数字或常数，称为欧拉数（发音为oy-ler），它指的是一个具有实际无限精度的值。例如： $2.71828\dots$ ，将 $e$ 提升到幂称为自然指数函数： $e^2 = 7.38905\dots$
它可以使用自然对数进行反转，自然对数表示为： $\text{ln}()$ 。则 $\text{ln}(7.3805\dots) = 2$
自然指数和对数在数学中用于抽象地描述某些系统的连续增长，例如指数增长的系统，如复利。

注：上述涉及到符号和公式对应的LeTax写法，如下：

$e$
$10^2 = 10 \times 10$
$\log_{10}()$
$\log_{10}(100) = 2$
$2^6 = 64$
$\log_{2}(64) = 6$
$e = 2.71828\dots$
$e^2 = 7.38905\dots$
$\text{ln}()$
$\text{ln}(7.38905\dots) = 2$

希腊字母

在数学符号中，希腊字母被广泛用于变量、常数、函数等。例如，在统计学中，我们使用小写的希腊字母mu (µ)来表示平均值，使用小写的希腊字母sigma (σ)来表示标准差。在线性回归中，我们谈论的系数使用小写的字母beta (β)。等等。知道所有的大写和小写希腊字母以及如何发音是有用的。以下是完整的希腊字母表：

名称	符号	中文读音
Alpha	$\Alpha,\alpha$	阿尔法
Beta	$\Beta,\beta$	贝塔
Gamma	$\Gamma,\gamma$	伽玛
Delta	$\Delta,\delta$	德尔塔
Epsilon	$\Epsilon,\epsilon$	艾普西隆
Zeta	$\Zeta,\zeta$	泽塔
Eta	$\Eta,\eta$	伊塔
Theta	$\Theta,\theta$	西塔
Iota	$\Iota,\iota$	爱奥塔
Kappa	$\Kappa,\kappa$	卡帕
Lambda	$\Lambda,\lambda$	拉姆达
Mu	$\Mu,\mu$	谬
Nu	$\Nu,\nu$	纽
Xi	$\Xi,\xi$	克西
Omicron	$\Omicron,\omicron$	欧米克戎
Pi	$\Pi,\pi$	派
Rho	$\Rho,\rho$	柔
Sigma	$\Sigma,\sigma$	西格玛
Tau	$\Tau,\tau$	陶
Upsilon	$\Upsilon,\upsilon$	阿普西隆
Phi	$\Phi,\phi$	菲
Chi	$\Chi,\chi$	希
Psi	$\Psi,\psi$	普西
Omega	$\Omega,\omega$	欧米伽

请注意，sigma (σ)在数学符号中也可以表示为σ或ς，这取决于上下文和所使用的数学字体。同样，pi (π)也是一个特殊的常数，通常用圆周率表示，大约等于3.14159。

序列符号

机器学习符号经常描述对序列的操作。序列可能是一个数据数组或一系列项的列表。
在机器学习中，序列操作很常见，尤其是在处理时间序列数据、序列模型（如循环神经网络RNNs和长短期记忆网络LSTMs）以及自然语言处理（NLP）任务时。以下是几个与序列操作相关的机器学习符号和概念的例子：

列预测：在时间序列分析中，我们可能会对未来的数据点进行预测。这可以通过各种机器学习模型来实现，如ARIMA、季节性分解的时间序列预测（STL）、随机森林等。
序列模型：在序列模型中，如RNN和LSTM，输入序列被处理成一个序列的隐藏状态，这些隐藏状态可以捕获序列中的时间依赖性。
序列标注：在序列标注任务中，如在NLP中标注句子中的词性或实体，每个序列中的项（如句子中的词）都被赋予一个标签。
序列到序列学习：在序列到序列学习（Seq2Seq）中，模型学习将一个序列映射到另一个序列，这在机器翻译和对话系统中非常有用。
注意力机制（Attention Mechanism）：在处理序列数据时，注意力机制可以帮助模型集中在序列的特定部分，这对于理解序列中的关键信息非常重要。
卷积神经网络（CNNs）：尽管卷积神经网络通常用于图像处理，但它们也可以应用于序列数据，通过卷积操作在时间维度上捕捉局部模式。
嵌入层（Embeddings）：在NLP中，单词或其他术语被转换为密集的向量表示，这些向量可以捕捉词汇的语义和上下文信息。
循环层（Recurrent Layers）：在循环神经网络中，循环层允许模型在处理序列时保持状态，这使得模型能够记忆序列中的长期依赖关系。

机器学习中的序列操作通常涉及复杂的数学和算法，但它们是现代机器学习模型的核心组成部分，使得模型能够处理和理解各种序列数据。

1. 索引

索引是理解序列表示法的关键，它指的是序列中元素的位置。通常，表示法会指定序列的开始和结束，例如1到n，其中n将是序列的范围或长度。序列中的项目通过变量如i、j、k等作为下标来索引。这与数组表示法类似。例如，a_i是序列a的第i个元素。如果序列是二维的，可能会使用两个索引，例如：b_i_j是序列b的第(i,j)个元素。
在数学和计算机科学中，序列的索引通常遵循以下规则：

一维序列：如果序列是一维的，通常使用单个下标来表示元素的位置。例如，对于长度为n的序列a，元素a_i表示序列中第i个位置的元素，其中i的取值范围是1到n。
二维序列：如果序列是二维的，通常使用两个下标来表示元素的位置。例如，对于一个矩阵或二维数组b，元素b_i_j表示矩阵中第i行第j列的元素，其中i和j的取值范围取决于矩阵的大小。
多维序列：序列可以是多维的，这时会使用多个下标。例如，一个三维数组c可能会用三个下标来表示元素的位置，如c_i_j_k。

在实际应用中，索引可以帮助我们准确地引用序列中的特定元素，这对于数据处理、算法设计和数学证明等方面非常重要。索引的使用确保了我们在序列中的操作是精确和一致的。

2. 序列操作符

数学运算可以在一个序列上执行。执行两个操作序列如此频繁，以至于它们有自己的速记，和和乘法。

序列求和

序列的和用大写希腊字母Sigma（Σ）表示。它用变量和序列求和的Sigma开始下标（例如i=1）以及求和结束的上标（例如n）。
例如： $\sum_{i=1}^n a_i$ 或 $\sum\limits_{i=1}^n a_i$ ，这是从元素1到元素n的序列的和。
注：上述涉及到符号和公式对应的LeTax写法，如下：

$\sum_{i=1}^n a_i$ 
$\sum\limits_{i=1}^n a_i$

序列乘积

序列的乘积用大写希腊字母Pi（Π）表示。它的表示方式与序列求和相同，即在字母下方和上方分别标明操作的开始和结束。
例如： $\prod_{i=1}^n a_i$ 或 $\prod\limits_{i=1}^n a_i$ ，这是从元素1到元素n的序列a的乘积。
注：上述涉及到符号和公式对应的LeTax写法，如下：

$\prod_{i=1}^n a_i$
$\prod\limits_{i=1}^n a_i$

集合符号

集合是由唯一项组成的一组。在定义机器学习中的术语时，我们可能会看到集合记号的使用。

1. 数字集合

你可能会看到的常见集合是一组数字，比如定义为整数集或实数集中的一个术语。你可能会看到的常见数字集合包括：
所有自然数的集合： $\mathbb{N}$
所有整数的集合： $\mathbb{Z}$
所有实数的集合： $\mathbb{R}$
在定义术语时，我们通常谈论实数值或实数，而不是浮点值，后者实际上是计算机操作中的一种离散创建。

注：上述涉及到符号和公式对应的LeTax写法，如下：

$\mathbb{N}$ 
$\mathbb{Z}$
$\mathbb{R}$

2. 集合关系

在定义术语时，经常会看到集合成员的概念。集合成员用一个看起来像大写字母”E"的符号表示： $\in$ 。
例如： $\in \mathbb{R}$ ，这表示a被定义为实数集R的一个成员。
两个常见的集合运算（交集和并集），包括：

并集，或聚合（Union）

令 A 和 B 是两个集合。 A 和 B 的并集，记作 A ∪ B，是一个集合，其元素满足是 A 的元素或者是 B 的元素，或者两者都是。即：
$\text{A} \cup \text{B} = \{ x \mid x \in \text{A} \quad or \quad x \in \text{B} \}$

交集，或重叠（Intersection）

令 A 和 B 是两个集合。 A 和 B 的交集，记作 A ∩ B，是一个集合，其元素满足既是 A 的元素又是 B 的元素。即：
$\text{A} \cap \text{B} = \{ x \mid x \in \text{A} \quad and \quad x \in \text{B} \}$

此外，还有许多集合运算，包括：

差集（Difference）

令 A 和 B 是两个集合。 A对 B 的差集，记作 A − B，是一个集合，其元素满足是 A 的元素但不是 B 的元素。即：
$\text{A} - \text{B} = \{ x \mid x \in \text{A} \quad and \quad x \notin \text{B} \}$

补集（Complement）

令 A 是集合， U 是全集。 A 的补集，记作 A(或者 $\bar{\text{A}}$ )，是一个集合，是所有不在 A 里元素组成的集合。即：
$\bar{\text{A}} = \{ x \mid x \notin \text{A} \} = \text{U} - \text{A}$

对称差（Symmetric Difference）

令 A 和 B 是两个集合。 A 和 B 的对称，记作 A ⊕ B，是一个集合，其元素满足是 A 的元素或者是 B 的元素，但不同时是两个集合的元素。即：
$\text{A} \oplus \text{B} = \{ x \mid x \in \text{A} \quad and \quad x \in \text{B} \quad and \quad x \in \text{A} \cap \text{B} \} = (\text{A} - \text{B}) \cap (\text{B} - \text{A})$

幂集（Power Set）

令 A 是集合， A 的幂集，记作 P(A)(或者 $2^{\text{A}}$ )，是一个所有 A 的子集组成的集合。即：
$\text{P}(\text{A}) = \{ x \mid x \subseteq \text{A} \}$

广义交、广义并（Generalized Intersection, Generalized Union）

令 A 是一个集合。 A 的广义交，记作 ∩A，是集合 A 里所有元素的公共元素组成的集合。即：
$\cap \text{A} = \{ x \mid \forall_z (z \in \text{A} \to x \in z) \}$
A 的广义并，记作 ∪A，是集合 A 里所有元素的并集。即：
$\cup \text{A} = \{ x \mid \exists_z (z \in \text{A} \wedge x \in \text{z}) \}$

注：上述涉及到符号和公式对应的LeTax写法，如下：

$\in$
$a \in \mathbb{R}$
并集：$\text{A} \cup \text{B} =  \{ x \mid x \in \text{A}  \quad or \quad x \in \text{B}  \}$
交集：$\text{A} \cap \text{B} =   \{ x \mid x \in \text{A}  \quad and \quad x \in \text{B}  \}$
差集：$\text{A} - \text{B} = \{ x \mid x \in \text{A} \quad and \quad x \notin \text{B}  \}$
补集：$\bar{\text{A}} = \{ x \mid x \notin \text{A}  \} = \text{U} - \text{A}$
对称集：$\text{A} \oplus \text{B} = \{ x \mid x \in \text{A} \quad and \quad x \in \text{B} \quad and \quad x \in \text{A} \cap \text{B}  \} = (\text{A} - \text{B}) \cap (\text{B} - \text{A})$
幂集：$\text{P}(\text{A}) = \{ x \mid x \subseteq \text{A} \}$
广义交：$\cap \text{A} = \{  x \mid \forall_z (z \in \text{A} \to x \in z) \}$
广义并：$\cup \text{A} = \{ x \mid \exists_z (z \in \text{A} \wedge x \in \text{z}) \}$

其他符号

还会遇到其他一些记号。通常，我们会先在抽象层面定义一个方法，然后再次定义它为一个具体的实现，使用不同的记号。例如，如果我们正在估计一个变量 $x$ ，我们可能使用修改 $x$ 的记号，例如：

$x$ 的平均值： $\bar{x}$
$x$ 的导数： $\grave{x}$
$x$ 的估计值： $\hat{x}$
$x$ 的近似值： $\tilde{x}$

注：上述涉及到符号和公式对应的LeTax写法，如下：

$\bar{x}$
$\grave{x}$
$\hat{x}$
$\tilde{x}$

同样的记号在不同的上下文中可能有不同的含义，例如用于不同的对象或数学的子领域。例如，常见的混淆点是 $\lvert x \rvert$ ，根据上下文的不同，它可以意味着：
$\lvert x \rvert$ ： $x$ 的绝对值或正值
$\lvert x \rvert$ ：向量 $x$ 的长度
$\lvert x \rvert$ ：集合 $x$ 的基数（元素数量）