青职院人工智能02数学基础（二）

青职院实训1组田老师

已于 2022-09-22 09:45:19 修改

阅读量5.3k

点赞数 1

于 2022-09-15 08:36:17 首次发布

本文链接：https://blog.csdn.net/m0_73629289/article/details/126863893

版权

1.3 特征值和特征向量

1.3.1 特征值分解与特征向量

特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors)；
特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么。

如果说一个向量 $\vec{v}$ 是方阵 $A$ 的特征向量，将一定可以表示成下面的形式：

$A\nu = \lambda \nu$

$\lambda$ 为特征向量 $\vec{v}$ 对应的特征值。特征值分解是将一个矩阵分解为如下形式：

$A=Q\sum Q^{-1}$

其中， $Q$ 是这个矩阵 $A$ 的特征向量组成的矩阵， $\sum$ 是一个对角矩阵，每一个对角线元素就是一个特征值，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。也就是说矩阵 $A$ 的信息可以由其特征值和特征向量表示。

1.3.2 奇异值与特征值有什么关系

那么奇异值和特征值是怎么对应起来的呢？我们将一个矩阵 $A$ 的转置乘以 $A$ ，并对 $A^TA$ 求特征值，则有下面的形式：

$(A^TA)V = \lambda V$

这里 $V$ 就是上面的右奇异向量，另外还有：

$\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}AV$

这里的 $\sigma$ 就是奇异值， $u$ 就是上面说的左奇异向量。【证明那个哥们也没给】
奇异值 $\sigma$ 跟特征值类似，在矩阵 $\sum$ 中也是从大到小排列，而且 $\sigma$ 的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前 $r$ （ $r$ 远小于 $m 、 n$ ）个的奇异值来近似描述矩阵，即部分奇异值分解：
$A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T$

右边的三个矩阵相乘的结果将会是一个接近于 $A$ 的矩阵，在这儿， $r$ 越接近于 $n$ ，则相乘的结果越接近于 $A$ 。

1.4 概率分布与随机变量

1.4.1 机器学习为什么要使用概率

事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的，但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
机器学习除了处理不确定量，也需处理随机量。不确定性和随机性可能来自多个方面，使用概率论来量化不确定性。
概率论在机器学习中扮演着一个核心角色，因为机器学习算法的设计通常依赖于对数据的概率假设。

例如在机器学习（Andrew Ng）的课中，会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设，用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件，单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的，因为某些单词几乎总是同时出现。然而，最终结果是，这个简单的假设对结果的影响并不大，且无论如何都可以让我们快速判别垃圾邮件。

1.4.2 变量与随机变量有什么区别

随机变量（random variable）

表示随机现象（在一定条件下，并不总是出现相同结果的现象称为随机现象）中各种结果的实值函数（一切可能的样本点）。例如某一时间内公共汽车站等车乘客人数，电话交换台在一定时间内收到的呼叫次数等，都是随机变量的实例。
随机变量与模糊变量的不确定性的本质差别在于，后者的测定结果仍具有不确定性，即模糊性。

变量与随机变量的区别：
当变量的取值的概率不是1时,变量就变成了随机变量；当随机变量取值的概率为1时,随机变量就变成了变量。

比如：
当变量 $x$ 值为100的概率为1的话,那么 $x = 100$ 就是确定了的,不会再有变化,除非有进一步运算.
当变量 $x$ 的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

1.4.3 随机变量与概率分布的联系

一个随机变量仅仅表示一个可能取得的状态，还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法，就是 概率分布(probability distribution).

随机变量可以分为离散型随机变量和连续型随机变量。

相应的描述其概率分布的函数是

概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布，通常用大写字母 $P$ 表示。

概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布，通常用小写字母 $p$ 表示。

1.4.4 离散型随机变量和概率质量函数

PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。

一般而言， $P (x)$ 表示时 $X = x$ 的概率.
有时候为了防止混淆，要明确写出随机变量的名称 $P ($ x $= x)$
有时候需要先定义一个随机变量，然后制定它遵循的概率分布x服从 $P ($ x $)$

PMF 可以同时作用于多个随机变量，即联合概率分布(joint probability distribution) $P (X = x, Y = y)$ *表示 $X = x$ 和 $Y = y$ 同时发生的概率，也可以简写成 $P (x, y)$ .

如果一个函数 $P$ 是随机变量 $X$ 的 PMF，那么它必须满足如下三个条件

$P$ 的定义域必须是x的所有可能状态的集合
$\forall x \in$ x, $0 \leq P(x) \leq 1 $.
$_{x∈X} P(x)=1$ . 我们把这一条性质称之为归一化的(normalized)

1.4.5 连续型随机变量和概率密度函数

如果一个函数 $p$ 是x的PDF，那么它必须满足如下几个条件

$p$ 的定义域必须是x的所有可能状态的集合。
$\forall x \in X, p (x) \geq 0$ . 注意，我们并不要求$ p(x)≤1$，因为此处 $p (x)$ 不是表示的对应此状态具体的概率，而是概率的一个相对大小(密度)。具体的概率，需要积分去求。
$\int p (x) d x = 1$ , 积分下来，总和还是1，概率之和还是1.

注：PDF $p (x)$ 并没有直接对特定的状态给出概率，给出的是密度，相对的，它给出了落在面积为 $δ x$ 的无线小的区域内的概率为$ p(x)δx$. 由此，我们无法求得具体某个状态的概率，我们可以求得的是某个状态 $x$ 落在某个区间 $[a, b]$ 内的概率为$ \int_{a}^{b}p(x)dx$.

1.4.6 举例理解条件概率

条件概率公式如下：
$P(A\cap B) / P(B)$
说明：在同一个样本空间 $\Omega$ 中的事件或者子集 $A$ 与 $B$ ，如果随机从 $\Omega$ 中选出的一个元素属于 $B$ ，那么下一个随机选择的元素属于 $A$ 的概率就定义为在 $B$ 的前提下 $A$ 的条件概率。条件概率文氏图示意如图1.1所示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qtFWKoUM-1663119632769)(img/ch1/conditional_probability.jpg)]

图1.1 条件概率文氏图示意

根据文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是 $P(A\bigcap B)$ 除以 $P (B)$ 。
举例：一对夫妻有两个小孩，已知其中一个是女孩，则另一个是女孩子的概率是多少？（面试、笔试都碰到过）
穷举法：已知其中一个是女孩，那么样本空间为男女，女女，女男，则另外一个仍然是女生的概率就是1/3。
条件概率法： $P (女 ∣ 女) = P (女女) / P (女)$ ,夫妻有两个小孩，那么它的样本空间为女女，男女，女男，男男，则 $P (女女)$ 为1/4， $P （女） = 1 - P (男男) = 3/4$ ,所以最后 $1/3$ 。
这里大家可能会误解，男女和女男是同一种情况，但实际上类似姐弟和兄妹是不同情况。

1.4.7 联合概率与边缘概率联系区别

区别：
联合概率：联合概率指类似于 $P (X = a, Y = b)$ 这样，包含多个条件，且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
边缘概率：边缘概率是某个事件发生的概率，而与其它事件无关。边缘概率指类似于 $P (X = a)$ ， $P (Y = b)$ 这样，仅与单个随机变量有关的概率。

联系：
联合分布可求边缘分布，但若只知道边缘分布，无法求得联合分布。

1.4.8 条件概率的链式法则

由条件概率的定义，可直接得出下面的乘法公式：
乘法公式设 $A, B$ 是两个事件，并且 $P (A) > 0$ , 则有
$P (A B) = P (B ∣ A) P (A)$
推广
$P (A BC) = P (C ∣ A B) P (B ∣ A) P (A)$
一般地，用归纳法可证：若 $P(A_1A_2...A_n)>0$ ，则有
$P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1) =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1})$
任何多维随机变量联合概率分布，都可以分解成只有一个变量的条件概率相乘形式。

1.4.9 独立性和条件独立性

独立性
两个随机变量 $x$ 和 $y$ ，概率分布表示成两个因子乘积形式，一个因子只包含 $x$ ，另一个因子只包含 $y$ ，两个随机变量相互独立(independent)。
条件有时为不独立的事件之间带来独立，有时也会把本来独立的事件，因为此条件的存在，而失去独立性。
举例： $P (X Y) = P (X) P (Y)$ , 事件 $X$ 和事件 $Y$ 独立。此时给定 $Z$ ，
$\not = P(X|Z)P(Y|Z)$
事件独立时，联合概率等于概率的乘积。这是一个非常好的数学性质，然而不幸的是，无条件的独立是十分稀少的，因为大部分情况下，事件之间都是互相影响的。

条件独立性
给定 $Z$ 的情况下, $X$ 和 $Y$ 条件独立，当且仅当
$X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)$
$X$ 和 $Y$ 的关系依赖于 $Z$ ，而不是直接产生。

举例定义如下事件：
$X$ ：明天下雨；
$Y$ ：今天的地面是湿的；
$Z$ ：今天是否下雨；
$Z$ 事件的成立，对 $X$ 和 $Y$ 均有影响，然而，在 $Z$ 事件成立的前提下，今天的地面情况对明天是否下雨没有影响。

1.5 常见概率分布

1.5.1 Bernoulli分布

Bernoulli分布(伯努利分布，0-1分布)是单个二值随机变量分布, 单参数 $\phi$ ∈[0,1]控制, $\phi$ 给出随机变量等于1的概率. 主要性质有:
$\begin{align*} P(x=1) &= \phi \\ P(x=0) &= 1-\phi \\ 概率质量函数：P(x=x) &= \phi^x(1-\phi)^{1-x} \\ \end{align*}$
其期望和方差为：
$\begin{align*} E_x[x] &= \phi \\ Var_x(x) &= \phi{(1-\phi)} \end{align*}$
适用范围: 伯努利分布适合对离散型随机变量建模.

Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中 $k$ 是有限值.Multinoulli分布由向量 $\vec{p}\in[0,1]^{k-1}$ 参数化,每个分量 $p_i$ 表示第 $i$ 个状态的概率, 且 $p_k=1-1^Tp$ .这里 $1^T$ 表示元素全为1的列向量的转置，其实就是对于向量p中除了k的概率之和。可以重写为 $p_k=1-\sum_{0}^{k-1}p_i$ 。

补充二项分布、多项分布：

二项分布，通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验，规定了每次试验的结果只有两个，如果现在还是做n次试验，只不过每次试验的结果可以有多m个，且m个结果发生的概率互斥且和为1，则发生其中一个结果X次的概率就是多项式分布。

1.5.2 高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:
$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )$
其中, $\mu$ 和 $\sigma$ 分别是均值和标准差, 中心峰值x坐标由 $\mu$ 给出, 峰的宽度受 $\sigma$ 控制, 最大点在 $x=\mu$ 处取得, 拐点为 $x=\mu\pm\sigma$

正态分布中，±1 $\sigma$ 、±2 $\sigma$ 、±3 $\sigma$ 下的概率分别是68.3%、95.5%、99.73%，这3个数最好记住。

此外, 令 $\mu=0,\sigma=1$ 高斯分布即简化为标准正态分布:
$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )$
对概率密度函数高效求值:
$N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)$

其中， $\beta=\frac{1}{\sigma^2}$ 通过参数 $\beta∈（0，\infty）$ 来控制分布精度。

1.5.3 何时采用正态分布

问: 何时采用正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

正态分布的推广:
正态分布可以推广到 $R^n$ 空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵 $\Sigma$ :
$N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)$
对多为正态分布概率密度高效求值:
$N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)$
此处， $\vec\beta$ 是一个精度矩阵。

1.5.4 指数分布

深度学习中, 指数分布用来描述在 $x = 0$ 点处取得边界点的分布, 指数分布定义如下:
$p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})$
指数分布用指示函数 $I_{x\geq 0}$ 来使 $x$ 取负值时的概率为零。

1.5.5 Laplace 分布（拉普拉斯分布）

一个联系紧密的概率分布是 Laplace 分布（Laplace distribution），它允许我们在任意一点 $\mu$ 处设置概率质量的峰值
$Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)$

1.5.6 Dirac分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克 $\delta$ 函数(也称为单位脉冲函数)定义如下:
$p(x)=\delta(x-\mu), x\neq \mu$

$\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b$

Dirac 分布经常作为经验分布（empirical distribution）的一个组成部分出现
$\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})$
, 其中, m个点 $x^{1},...,x^{m}$ 是给定的数据集, 经验分布将概率密度 $\frac{1}{m}$ 赋给了这些点.

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.

适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.

1.6 期望、方差、协方差、相关系数

1.6.1 期望

在概率论和统计学中，数学期望（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

线性运算： $E (a x + b y + c) = a E (x) + b E (y) + c$
推广形式： $E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}$
函数期望：设 $f (x)$ 为 $x$ 的函数，则 $f (x)$ 的期望为
- 离散函数： $E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}$
- 连续函数： $E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}$