人工智能基础部分24-人工智能的数学基础，汇集了人工智能数学知识最全面的概况

微学AI

已于 2024-02-07 18:34:20 修改

阅读量1.1k

点赞数 22

分类专栏：人工智能基础部分文章标签：深度学习人工智能数学基础

于 2024-02-07 18:32:40 首次发布

本文链接：https://blog.csdn.net/weixin_42878111/article/details/135955612

版权

人工智能基础部分专栏收录该内容

28 篇文章 53 订阅

订阅专栏

、
大家好，我是微学AI，今天给大家介绍一下人工智能基础部分24-人工智能的数学基础，汇集了人工智能数学知识最全面的概况，深度学习是一种利用多层神经网络对数据进行特征学习和表示学习的机器学习方法。要全面了解深度学习的数学基础，需要掌握这些数学知识：向量、矩阵、微积分、线性代数、概率论、数值计算、优化理论、信息论。
在这里插入图片描述

文章目录

第一章数学基础

第一章数学基础

深度学习，就像是在搭建一个复杂的乐高城堡，而数学就是那些基本的积木块。让我们来一场探险，深入这个神秘的数学森林，探索深度学习的基石。
向量：想象一下你正在一个三维空间中，向量可以表示一个箭头，它有方向和长度。在数学中，向量是一个可以表示多个数值的有序数组，这些数值可以是特征、属性或者其他任何可以量化的信息。在深度学习中，向量常常用来表示数据样本，比如一个图像可以被表示为一个长向量，其中每个元素对应图像中的一个像素。
矩阵：矩阵是一个二维数组，它由行和列组成，可以看作是向量的集合。在深度学习中，矩阵通常用来表示多个数据样本或者一个数据样本的多个特征。例如，一个包含多个图像的数据集可以被表示为一个矩阵，其中每个行向量代表一个图像，每个列向量代表图像中的一个特征或者像素。
微积分：想象你站在时间的河流边，微积分就是帮你理解和预测河流变化的魔法。它教会我们如何通过观察河流的微小变化来预测未来的水流，这在深度学习中帮助我们优化模型，让它们更准确地预测和分类。
线性代数：这是一副X光眼镜，能让你看穿复杂结构的本质。在深度学习中，数据常常被表示为多维矩阵，线性代数就是帮助我们理解和操作这些矩阵的工具，它是神经网络的核心语言。
概率论：深度学习就像是一场赌博游戏，而概率论就是你的赌博策略。它帮助我们理解和处理不确定性，让模型在面对未知时做出更好的决策。
数值计算：想象你在没有地图的森林里探险，数值计算就是你的指南针。在深度学习中，我们需要处理大量的数据和复杂的计算，数值计算确保我们在计算过程中不会迷失方向。
优化理论：这是你的健身教练，帮助你找到最快最强的路径。在深度学习中，我们需要优化模型的参数以获得最佳性能，优化理论提供了实现这一目标的策略和技巧。
信息论：这是你的翻译器，帮助你在复杂的数据世界中沟通。信息论教会我们如何量化、传输和处理信息，这对于理解深度学习模型中的信息流至关重要。
虽然这些数学知识看起来繁多且复杂，但它们就像是搭建深度学习大厦的基石。理解这些概念，就像是学会了一种新的语言，让你能够与机器进行更深层次的对话。所以，不要害怕，让我们一起探索这个神秘的数学森林，揭开深度学习的神秘面纱。

1.1 向量和矩阵

1.1.1 标量、向量、矩阵、张量之间的联系

标量（Scalar）
想象一下你在数轴上标记了一个点，那个点就是一个标量——一个单独的数字。我们可以用斜体字母来代表它，比如 $s$ 。标量很简单，就是数学世界中的单一值，没有方向，也没有大小，它就是它。
向量（Vector）
现在，让我们把数轴上的点连接起来，形成一个有方向的箭头。这个箭头就是向量，它是一串数字的有序集合。我们用粗体的小写字母来表示它，比如 $v$ 。向量中的每个数字都有一个特定的位置，我们用下标来指明，比如 $v_1$ 是向量的第一个元素， $v_2$ 是第二个，依此类推。向量是深度学习中的基本工具，它能够表示数据的多维度特征。
矩阵（Matrix）
如果我们将多个向量并排放置，形成一个表格，我们就得到了矩阵。矩阵是一个二维的数字阵列，它由行和列组成。我们用粗体的大写字母来表示它，比如 $M$ 。在深度学习中，矩阵经常用来存储和操作大量数据，每一行可以代表一个数据样本，每一列可以代表一个特征。
张量（Tensor）
最后，当我们谈论的数据结构超越了矩阵的二维限制，我们就进入了张量的世界。张量是更高维度的数据结构，它可以有任意多的维度。我们用字母 $A$ 来表示张量 “A”。如果你想象一个立方体，那么每个顶点上的数字就是一个三维张量的一个元素。我们可以用索引来访问张量中的特定元素，比如 $A_{(i,j,k)}$ 。在深度学习中，张量是最通用的数据结构，可以用来表示图像、视频、音频等复杂的数据类型。

1.1.2 张量与矩阵的区别

矩阵与向量的关系：如果我们把向量看作是一串按顺序排列的数字，那么矩阵就像是把这些数字按照纵横交错的方式排列成的一个表格。向量是一维的，而矩阵是二维的，它们都是线性代数中的基本工具。当我们把这种思维方式扩展到更高的维度，我们就得到了张量，它可以被视为一个 $n$ 维的数字阵列。从技术上讲，张量是通过线性映射的概念来定义的，这使它能够灵活地表示复杂的数据结构。
矩阵和向量的几何属性：在几何学的视角下，矩阵和向量都是一些特别的量，它们有着一种“不变”的性质——无论我们如何改变观察它们的坐标系统，它们本质上的属性都不会改变。这种属性使得矩阵和向量在描述物理现象和几何关系时非常强大。
张量的矩阵表示：虽然张量可以有任意多的维度，但在某些情况下，我们可以使用3×3的矩阵来表示它们。这种表示方法可以帮助我们理解和操作张量，尤其是在涉及到特定的数学运算时。
标量和向量的矩阵视角：如果我们从矩阵的角度来看，标量可以被视为一个1×1的矩阵，因为它本质上就是一个单独的数字。同样地，向量可以被看作是一个1×3的矩阵（如果我们考虑的是一个三维向量），其中每一列代表向量中的一个元素。这种视角有助于我们将标量和向量融入到更广泛的矩阵运算中。

1.1.3 矩阵和向量相乘结果

在爱因斯坦求和约定下，矩阵乘法可以简洁地表达为：
对于两个矩阵 $A$ 和 $B$ 相乘，其结果矩阵 $C$ 的元素 $c_{ij}$ 可以通过下述方式计算：
$c_{ij} = \sum_{k} a_{ik} b_{kj}$
其中， $k$ 是一个哑变量，表示在计算 $c_{ij}$ 时需要对 $k$ 的所有可能值进行求和。
当矩阵 $B$ 是一个列向量，即形如 $\times 1$ 的矩阵时，矩阵和向量的乘积可以视为上述矩阵乘法的一个特例。在这种情况下，我们仅对 $B$ 的一个维度进行求和，因为 $B$ 只有一个列。所以，如果 $B$ 是一个列向量，则乘积 $C$ 的每个元素 $c_{ij}$ 可以简化为：
$c_{ij} = \sum_{k} a_{ik} b_{k1}$
这里 $b_{k1}$ 表示向量 $B$ 的第 $k$ 个元素，因为 $B$ 只有一个列，所以下标为 $1$ 。

1.1.4 向量和矩阵的范数归纳

向量的范数

向量的范数是衡量向量大小的一种度量方式，不同的范数定义了不同的度量标准。给定一个向量 $\vec{a} = [-5, 6, 8, -10]$ 和任意一组向量 $\vec{x} = (x_1, x_2, ..., x_N)$ ，我们可以根据不同的范数定义来计算它们的大小：

向量的1-范数，也称为税吏范数或曼哈顿范数，是向量各个元素绝对值之和。对于向量 $\vec{a}$ ，其1-范数计算如下：
$\Vert\vec{a}\Vert_1 = \sum_{i=1}^{N} |a_i| = |{-5}| + |6| + |8| + |{-10}| = 29$
向量的2-范数，也称为欧几里得范数或标准范数，是向量各元素平方和的平方根。对于向量 $\vec{a}$ ，其2-范数计算如下：
$\Vert\vec{a}\Vert_2 = \sqrt{\sum_{i=1}^{N} |a_i|^2} = \sqrt{(-5)^2 + 6^2 + 8^2 + (-10)^2} = 15$
向量的负无穷范数是向量所有元素绝对值中的最小值。对于向量 $\vec{a}$ ，其负无穷范数计算如下：
$\Vert\vec{a}\Vert_{-\infty} = \min\{|a_i|\} = \min\{|-5|, |6|, |8|, |-10|\} = 5$
向量的正无穷范数是向量所有元素绝对值中的最大值。对于向量 $\vec{a}$ ，其正无穷范数计算如下：
$\Vert\vec{a}\Vert_{+\infty} = \max\{|a_i|\} = \max\{|-5|, |6|, |8|, |-10|\} = 10$
向量的p-范数是一般化的范数定义，它是向量各元素绝对值的p次幂之和的p次根。对于任意向量 $\vec{x}$ ，其p-范数计算如下：
$\Vert\vec{x}\Vert_p = \left(\sum_{i=1}^{N} |x_i|^p\right)^{\frac{1}{p}}$
这些不同的范数定义了向量的不同度量方式，可以根据不同的应用需求选择合适的范数。

矩阵的范数

矩阵的范数是衡量矩阵“大小”的一种方法，它是从矩阵到实数的映射。给定一个矩阵 $\left[ \begin{array}{ccc} -1 & 2 & -3 \\ 4 & -6 & 6 \end{array} \right]$ 和任意矩阵 $A_{m \times n}$ ，其元素为 $a_{ij}$ ，矩阵的范数可以定义为：
$\Vert A \Vert_p := \sup_{x \neq 0} \frac{\Vert Ax \Vert_p}{\Vert x \Vert_p}$
这个定义表明，矩阵 $A$ 的 $p$ -范数是使得 $\frac{\Vert Ax \Vert_p}{\Vert x \Vert_p}$ 最大的所有非零向量 $x$ 的 $\Vert Ax \Vert_p$ 的值。

矩阵的1-范数（列范数）：矩阵的1-范数是矩阵的每一列上元素绝对值之和的最大值。对于矩阵 $A$ ，其1-范数计算如下：
$\Vert A \Vert_1 = \max_{1 \leq j \leq n} \sum_{i=1}^m |a_{ij}| = \max\{5, 8, 9\} = 9$
矩阵的2-范数：矩阵的2-范数是矩阵 $A^TA$ 的最大特征值的平方根。对于矩阵 $A$ ，其2-范数计算如下：
$\Vert A \Vert_2 = \sqrt{\lambda_{\max}(A^T A)}$
其中， $\lambda_{\max}(A^T A)$ 是 $A^T A$ 的特征值中的最大值。
矩阵的无穷范数（行范数）：矩阵的无穷范数是矩阵的每一行上元素绝对值之和的最大值。对于矩阵 $A$ ，其无穷范数计算如下：
$\Vert A \Vert_{\infty} = \max_{1 \leq i \leq m} \sum_{j=1}^n |a_{ij}| = \max\{6, 16\} = 16$
这些不同的范数定义了矩阵的不同度量方式，可以根据不同的应用需求选择合适的范数。
矩阵的核范数：矩阵的奇异值（将矩阵svd分解）之和，这个范数可以用来低秩表示（因为最小化核范数，相当于最小化矩阵的秩——低秩），上述矩阵A最终结果就是：10.9287。
矩阵的L0范数：矩阵的非0元素的个数，通常用它来表示稀疏，L0范数越小0元素越多，也就越稀疏，上述矩阵 $A$ 最终结果就是：6。
矩阵的L1范数：矩阵中的每个元素绝对值之和，它是L0范数的最优凸近似，因此它也可以表示稀疏，上述矩阵 $A$ 最终结果就是：22。
矩阵的F范数：矩阵的各个元素平方之和再开平方根，它通常也叫做矩阵的L2范数，它的优点在于它是一个凸函数，可以求导求解，易于计算，上述矩阵A最终结果就是：10.0995。

$\Vert A\Vert_F=\sqrt{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^2)}$

矩阵的L21范数：矩阵先以每一列为单位，求每一列的F范数（也可认为是向量的2范数），然后再将得到的结果求L1范数（也可认为是向量的1范数），很容易看出它是介于L1和L2之间的一种范数，上述矩阵 $A$ 最终结果就是：17.1559。
矩阵的 p范数

$\Vert A\Vert_p=\sqrt[p]{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^p)}$

1.1.5 如何判断一个矩阵为正定

判定一个矩阵是否为正定，通常有以下几个方面：

顺序主子式全大于0；
存在可逆矩阵 $C$ 使 $C^TC$ 等于该矩阵；
正惯性指数等于 $n$ ；
合同于单位矩阵 $E$ （即：规范形为 $E$ ）
标准形中主对角元素全为正；
特征值全为正；
是某基的度量矩阵。

1.2 导数和偏导数

1.2.1 导数偏导计算

导数定义:

导数是数学中用于描述函数在某一点附近如何变化的工具。它衡量的是当自变量的变化非常非常小，接近于零时，函数值的变化与自变量的变化之间的比率。在几何上，这个比率就是曲线在该点处的切线的斜率。在物理学中，它表示的是某一特定时刻的瞬时变化率。
在一元函数的情况下，由于只有一个自变量在变化，因此只存在一个方向的变化率，这就是为什么一元函数不涉及偏导数的原因。在物理学中，我们区分平均速度和瞬时速度。平均速度是总路程除以总时间，可以用公式 $\frac{s}{t}$ 来表示。如果我们考虑两个非常接近的时刻 $t_0$ 和 $t_0 + \Delta t$ ，那么在这两个时刻之间的平均速度可以表示为 $\bar{v} = \frac{\Delta s}{\Delta t}$ ，其中 $\Delta s$ 是在这段时间内走过的路程， $\Delta t$ 是时间间隔。
当时间间隔 $\Delta t$ 趋近于零时，平均速度就变成了在 $t_0$ 时刻的瞬时速度。这个瞬时速度可以通过极限的方式来计算：
$v(t_0) = \lim_{\Delta t \to 0} \bar{v} = \lim_{\Delta t \to 0} \frac{\Delta s}{\Delta t} = \lim_{\Delta t \to 0} \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t}$
这个极限实际上就是函数 $s (t)$ 在 $t = t_0$ 处的导数。一般地，如果一个函数 $y = f (x)$ 在 $x_0$ 点的平均变化率的极限存在，即
$\lim_{\Delta x \to 0} \frac{\Delta y}{\Delta x} = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}$
那么这个极限值就被定义为函数在 $x_0$ 点的导数，记作 $f'(x_0)$ 、 $y'\big|_{x=x_0}$ 、 $\frac{dy}{dx}\big|_{x=x_0}$ 或 $\frac{df(x)}{dx}\big|_{x=x_0}$ 。
简单来说，导数就是曲线在特定点的切线斜率，它告诉我们函数在该点的瞬时变化率。

偏导数:

对于偏导数，它至少涉及到两个自变量。以两个自变量为例， $z = f (x, y) $ ，从导数到偏导数，也就是从曲线来到了曲面。曲线上的一点，其切线只有一条。但是曲面上的一点，切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。

注意：直观地说，偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。

设函数 $z = f (x, y) $ 在点 $x_0,y_0)$ 的领域内有定义，当 $y=y_0$ 时， $z $ 可以看作关于 $x $ 的一元函数 $f(x,y_0)$ ，若该一元函数在 $x=x_0$ 处可导，即有

$\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A$

函数的极限 $A$ 存在。那么称 $A$ 为函数 $z = f (x, y)$ 在点 $x_0,y_0)$ 处关于自变量 $x$ 的偏导数，记作 $f_x(x_0,y_0)$ 或 $\frac{\partial z}{\partial x}\vert_{y=y_0}^{x=x_0}$ 或 $\frac{\partial f}{\partial x}\vert_{y=y_0}^{x=x_0}$ 或 $z_x\vert_{y=y_0}^{x=x_0}$ 。

偏导数在求解时可以将另外一个变量看做常数，利用普通的求导方式求解，比如 $z=3x^2+xy$ 关于 $x$ 的偏导数就为 $z_x=6x+y$ ，这个时候 $y$ 相当于 $x$ 的系数。

某点 $x_0,y_0)$ 处的偏导数的几何意义为曲面 $z = f (x, y)$ 与面 $x=x_0$ 或面 $y=y_0$ 交线在 $y=y_0$ 或 $x=x_0$ 处切线的斜率。

1.2.2 导数和偏导数有什么区别？

导数和偏导没有本质区别，如果极限存在，都是当自变量的变化量趋于0时，函数值的变化量与自变量变化量比值的极限。

一元函数，一个 $y$ 对应一个 $x$ ，导数只有一个。
二元函数，一个 $z$ 对应一个 $x$ 和一个 $y$ ，有两个导数：一个是 $z$ 对 $x$ 的导数，一个是 $z$ 对 $y$ 的导数，称之为偏导。
求偏导时要注意，对一个变量求导，则视另一个变量为常数，只对改变量求导，从而将偏导的求解转化成了一元函数的求导。

1.3 特征值和特征向量

1.3.1 特征值分解与特征向量

特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors)；
特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么。

如果说一个向量 $\vec{v}$ 是方阵 $A$ 的特征向量，将一定可以表示成下面的形式：

$A\nu = \lambda \nu$

$\lambda$ 为特征向量 $\vec{v}$ 对应的特征值。特征值分解是将一个矩阵分解为如下形式：

$A=Q\sum Q^{-1}$

其中， $Q$ 是这个矩阵 $A$ 的特征向量组成的矩阵， $\sum$ 是一个对角矩阵，每一个对角线元素就是一个特征值，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。也就是说矩阵 $A$ 的信息可以由其特征值和特征向量表示。

1.3.2 奇异值与特征值有什么关系

那么奇异值和特征值是怎么对应起来的呢？我们将一个矩阵 $A$ 的转置乘以 $A$ ，并对 $A^TA$ 求特征值，则有下面的形式：

$(A^TA)V = \lambda V$

这里 $V $ 就是上面的右奇异向量，另外还有：

$\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}AV$

这里的 $\sigma$ 就是奇异值， $u $ 就是上面说的左奇异向量。【证明那个哥们也没给】
奇异值 $\sigma$ 跟特征值类似，在矩阵 $\sum$ 中也是从大到小排列，而且 $\sigma$ 的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前 $r $ （ $r $ 远小于 $m 、 n $ ）个的奇异值来近似描述矩阵，即部分奇异值分解：
$A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T$

右边的三个矩阵相乘的结果将会是一个接近于 $A$ 的矩阵，在这儿， $r$ 越接近于 $n$ ，则相乘的结果越接近于 $A$ 。

1.4 概率分布与随机变量

1.4.1 机器学习为什么要使用概率

概率是用来量化一个事件发生可能性的度量。尽管在单个随机实验中，一个事件是否会发生包含有偶然因素，但是当我们重复相同的随机实验多次时，通常会发现一些明显的规律性。在机器学习中，我们不仅要处理不确定的量，还要处理随机的量。这种不确定性和随机性可能来自许多不同的源头，而概率论为我们提供了一种量化和理解这些不确定性的方法。概率论在机器学习中起着至关重要的作用，因为大多数机器学习算法的开发都是基于对数据概率性质的假设。

1.4.2 变量与随机变量有什么区别

随机变量（random variable）

表示随机现象（在一定条件下，并不总是出现相同结果的现象称为随机现象）中各种结果的实值函数（一切可能的样本点）。例如某一时间内公共汽车站等车乘客人数，电话交换台在一定时间内收到的呼叫次数等，都是随机变量的实例。
随机变量与模糊变量的不确定性的本质差别在于，后者的测定结果仍具有不确定性，即模糊性。

变量与随机变量的区别：
当变量的取值的概率不是1时,变量就变成了随机变量；当随机变量取值的概率为1时,随机变量就变成了变量。

例如：
当变量 $x$ 值为100的概率为1的话,那么 $x = 100$ 就是确定了的,不会再有变化,除非有进一步运算.
当变量 $x$ 的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

1.4.3 随机变量与概率分布的联系

随机变量是一个用来表示可能结果的变量，但它本身并不完整，我们需要一个概率分布来指定每个可能结果发生的概率。概率分布是一种描述随机变量或一组随机变量的每个可能状态的概率大小的工具。
随机变量可以分为两类：离散型和连续型。
对于离散型随机变量，我们使用概率质量函数（PMF）来描述其概率分布，通常用符号 $P$ 表示。
对于连续型随机变量，我们使用概率密度函数（PDF）来描述其概率分布，通常用符号 $p$ 表示。

1.4.4 离散型随机变量和概率质量函数

PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。

一般而言， $P (x) $ 表示时 $X = x $ 的概率.
有时候为了防止混淆，要明确写出随机变量的名称 $P ($ x $= x) $
有时候需要先定义一个随机变量，然后制定它遵循的概率分布x服从 $P ($ x $) $

PMF 可以同时作用于多个随机变量，即联合概率分布(joint probability distribution) $P (X = x, Y = y)$ *表示 $X = x$ 和 $Y = y$ 同时发生的概率，也可以简写成 $P (x, y)$ .

如果一个函数 $P $ 是随机变量 $X $ 的 PMF，那么它必须满足如下三个条件

$P $ 的定义域必须是x的所有可能状态的集合
$\forall x \in $ x, $\leq P(x) \leq 1 $ .
$_{x∈X} P(x)=1$ . 我们把这一条性质称之为归一化的(normalized)

1.4.5 连续型随机变量和概率密度函数

如果一个函数 $p $ 是x的PDF，那么它必须满足如下几个条件

$p$ 的定义域必须是x的所有可能状态的集合。
$\forall x \in X, p (x) \geq 0$ . 注意，我们并不要求 $p (x) \leq 1$ ，因为此处 $p (x)$ 不是表示的对应此状态具体的概率，而是概率的一个相对大小(密度)。具体的概率，需要积分去求。
$\int p (x) d x = 1$ , 积分下来，总和还是1，概率之和还是1.

注：PDF $p (x)$ 并没有直接对特定的状态给出概率，给出的是密度，相对的，它给出了落在面积为 $δ x$ 的无线小的区域内的概率为 $p (x) δ x$ . 由此，我们无法求得具体某个状态的概率，我们可以求得的是某个状态 $x$ 落在某个区间 $[a, b]$ 内的概率为 $\int_{a}^{b}p(x)dx$ .

1.4.6 举例理解条件概率

条件概率公式如下：
$P(A\cap B) / P(B)$
说明：在同一个样本空间 $\Omega$ 中的事件或者子集 $A$ 与 $B$ ，如果随机从 $\Omega$ 中选出的一个元素属于 $B$ ，那么下一个随机选择的元素属于 $A$ 的概率就定义为在 $B$ 的前提下 $A$ 的条件概率。

根据文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是 $P(A\bigcap B)$ 除以 $P (B)$ 。
举例：一对夫妻有两个小孩，已知其中一个是女孩，则另一个是女孩子的概率是多少？（面试、笔试都碰到过）
穷举法：已知其中一个是女孩，那么样本空间为男女，女女，女男，则另外一个仍然是女生的概率就是1/3。
条件概率法： $P (女 ∣ 女) = P (女女) / P (女)$ ,夫妻有两个小孩，那么它的样本空间为女女，男女，女男，男男，则 $P (女女)$ 为1/4， $P （女） = 1 - P (男男) = 3/4$ ,所以最后 $1/3$ 。
这里大家可能会误解，男女和女男是同一种情况，但实际上类似姐弟和兄妹是不同情况。

1.4.7 联合概率与边缘概率联系区别

区别：
联合概率：联合概率指类似于 $P (X = a, Y = b)$ 这样，包含多个条件，且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
边缘概率：边缘概率是某个事件发生的概率，而与其它事件无关。边缘概率指类似于 $P (X = a)$ ， $P (Y = b)$ 这样，仅与单个随机变量有关的概率。

联系：
联合分布可求边缘分布，但若只知道边缘分布，无法求得联合分布。

1.4.8 条件概率的链式法则

由条件概率的定义，可直接得出下面的乘法公式：
乘法公式设 $A, B$ 是两个事件，并且 $P (A) > 0$ , 则有
$P (A B) = P (B ∣ A) P (A)$
推广
$P (A BC) = P (C ∣ A B) P (B ∣ A) P (A)$
一般地，用归纳法可证：若 $P(A_1A_2...A_n)>0$ ，则有
$P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1) =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1})$
任何多维随机变量联合概率分布，都可以分解成只有一个变量的条件概率相乘形式。

1.4.9 独立性和条件独立性

独立性
两个随机变量 $x$ 和 $y$ ，概率分布表示成两个因子乘积形式，一个因子只包含 $x$ ，另一个因子只包含 $y$ ，两个随机变量相互独立(independent)。
条件有时为不独立的事件之间带来独立，有时也会把本来独立的事件，因为此条件的存在，而失去独立性。
举例： $P (X Y) = P (X) P (Y)$ , 事件 $X$ 和事件 $Y$ 独立。此时给定 $Z$ ，
$\not = P(X|Z)P(Y|Z)$
事件独立时，联合概率等于概率的乘积。这是一个非常好的数学性质，然而不幸的是，无条件的独立是十分稀少的，因为大部分情况下，事件之间都是互相影响的。

条件独立性
给定 $Z$ 的情况下, $X$ 和 $Y$ 条件独立，当且仅当
$X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)$
$X$ 和 $Y$ 的关系依赖于 $Z$ ，而不是直接产生。

举例定义如下事件：
$X$ ：明天下雨；
$Y$ ：今天的地面是湿的；
$Z$ ：今天是否下雨；
$Z$ 事件的成立，对 $X$ 和 $Y$ 均有影响，然而，在 $Z$ 事件成立的前提下，今天的地面情况对明天是否下雨没有影响。

1.5 常见概率分布

1.5.1 Bernoulli分布

Bernoulli分布(伯努利分布，0-1分布)是单个二值随机变量分布, 单参数 $\phi$ ∈[0,1]控制, $\phi$ 给出随机变量等于1的概率. 主要性质有:
$\begin{align*} P(x=1) &= \phi \\ P(x=0) &= 1-\phi \\ 概率质量函数：P(x=x) &= \phi^x(1-\phi)^{1-x} \\ \end{align*}$
其期望和方差为：
$\begin{align*} E_x[x] &= \phi \\ Var_x(x) &= \phi{(1-\phi)} \end{align*}$
适用范围: 伯努利分布适合对离散型随机变量建模.

Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中 $k$ 是有限值.Multinoulli分布由向量 $\vec{p}\in[0,1]^{k-1}$ 参数化,每个分量 $p_i$ 表示第 $i$ 个状态的概率, 且 $p_k=1-1^Tp$ .这里 $1^T$ 表示元素全为1的列向量的转置，其实就是对于向量p中除了k的概率之和。可以重写为 $p_k=1-\sum_{0}^{k-1}p_i$ 。

补充二项分布、多项分布：

二项分布，通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验，规定了每次试验的结果只有两个，如果现在还是做n次试验，只不过每次试验的结果可以有多m个，且m个结果发生的概率互斥且和为1，则发生其中一个结果X次的概率就是多项式分布。

1.5.2 高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:
$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )$
其中, $\mu$ 和 $\sigma$ 分别是均值和标准差, 中心峰值x坐标由 $\mu$ 给出, 峰的宽度受 $\sigma$ 控制, 最大点在 $x=\mu$ 处取得, 拐点为 $x=\mu\pm\sigma$

正态分布中，±1 $\sigma$ 、±2 $\sigma$ 、±3 $\sigma$ 下的概率分别是68.3%、95.5%、99.73%，这3个数最好记住。

此外, 令 $\mu=0,\sigma=1$ 高斯分布即简化为标准正态分布:
$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )$
对概率密度函数高效求值:
$N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)$

其中， $\beta=\frac{1}{\sigma^2}$ 通过参数 $\beta∈（0，\infty）$ 来控制分布精度。

1.5.3 何时采用正态分布

问: 何时采用正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

正态分布的推广:
正态分布可以推广到 $R^n$ 空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵 $\Sigma$ :
$N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)$
对多为正态分布概率密度高效求值:
$N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)$
此处， $\vec\beta$ 是一个精度矩阵。

1.5.4 指数分布

在深度学习中, 指数分布用来描述在 $x = 0$ 点处取得边界点的分布, 指数分布定义如下:
$p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})$
指数分布用指示函数 $I_{x\geq 0}$ 来使 $x $ 取负值时的概率为零。

1.5.5 Laplace 分布（拉普拉斯分布）

一个联系紧密的概率分布是 Laplace 分布（Laplace distribution），它允许我们在任意一点 $\mu$ 处设置概率质量的峰值
$Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)$

1.5.6 Dirac分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克 $\delta$ 函数(也称为单位脉冲函数)定义如下:
$p(x)=\delta(x-\mu), x\neq \mu$

$\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b$

Dirac 分布经常作为经验分布（empirical distribution）的一个组成部分出现
$\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})$
, 其中, m个点 $x^{1},...,x^{m}$ 是给定的数据集, 经验分布将概率密度 $\frac{1}{m}$ 赋给了这些点.

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.

适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.

1.6 期望、方差、协方差、相关系数

1.6.1 期望

在概率论和统计学中，数学期望（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

线性运算： $E (a x + b y + c) = a E (x) + b E (y) + c$
推广形式： $E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}$
函数期望：设 $f (x)$ 为 $x$ 的函数，则 $f (x)$ 的期望为
- 离散函数： $E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}$
- 连续函数： $E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}$