深度学习中的数学基础总结_矩阵的l0范数-CSDN博客

本文链接：https://blog.csdn.net/2401_83704125/article/details/137815959

∥ A ∥ ∞ = max ⁡ 1 ≤ i ≤ m ∑ j = 1 n ∣ a i j ∣ \Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}| ∥A∥∞=1≤i≤mmaxj=1∑n∣aij∣

矩阵的核范数：矩阵的奇异值（将矩阵svd分解）之和，这个范数可以用来低秩表示（因为最小化核范数，相当于最小化矩阵的秩——低秩），上述矩阵A最终结果就是：10.9287。
矩阵的L0范数：矩阵的非0元素的个数，通常用它来表示稀疏，L0范数越小0元素越多，也就越稀疏，上述矩阵 A A A最终结果就是：6。
矩阵的L1范数：矩阵中的每个元素绝对值之和，它是L0范数的最优凸近似，因此它也可以表示稀疏，上述矩阵 A A A最终结果就是：22。
矩阵的F范数：矩阵的各个元素平方之和再开平方根，它通常也叫做矩阵的L2范数，它的优点在于它是一个凸函数，可以求导求解，易于计算，上述矩阵A最终结果就是：10.0995。

∥ A ∥ F = ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ) \Vert A\Vert_F=\sqrt{(\sum_{i=1}^m\sum_{j=1}n{| a_{ij}|}^2)} ∥A∥F=(i=1∑mj=1∑n∣aij∣2)

矩阵的L21范数：矩阵先以每一列为单位，求每一列的F范数（也可认为是向量的2范数），然后再将得到的结果求L1范数（也可认为是向量的1范数），很容易看出它是介于L1和L2之间的一种范数，上述矩阵 A A A最终结果就是：17.1559。
矩阵的 p范数

∥ A ∥ p = ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ p ) p \Vert A\Vert_p=\sqrt[p]{(\sum_{i=1}^m\sum_{j=1}n{| a_{ij}|}^p)} ∥A∥p=p(i=1∑mj=1∑n∣aij∣p)

1.1.5 如何判断一个矩阵为正定

判定一个矩阵是否为正定，通常有以下几个方面：

顺序主子式全大于0；
存在可逆矩阵 C C C使 C T C C^TC CTC等于该矩阵；
正惯性指数等于 n n n；
合同于单位矩阵 E E E（即：规范形为 E E E）
标准形中主对角元素全为正；
特征值全为正；
是某基的度量矩阵。

1.2 导数和偏导数

1.2.1 导数偏导计算

导数定义:

导数(derivative)代表了在自变量变化趋于无穷小的时候，函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的（瞬时）变化率。

注意：在一元函数中，只有一个自变量变动，也就是说只存在一个方向的变化率，这也就是为什么一元函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有

v = s t v=\frac{s}{t} v=ts

其中 v v v表示平均速度， s s s表示路程， t t t表示时间。这个公式可以改写为

v ˉ = Δ s Δ t = s ( t 0 + Δ t ) − s ( t 0 ) Δ t \bar{v}=\frac{\Delta s}{\Delta t}=\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t} vˉ=ΔtΔs=Δts(t0+Δt)−s(t0)

其中 Δ s \Delta s Δs表示两点之间的距离，而 Δ t \Delta t Δt表示走过这段距离需要花费的时间。当 Δ t \Delta t Δt趋向于0（ Δ t → 0 \Delta t \to 0 Δt→0）时，也就是时间变得很短时，平均速度也就变成了在 t 0 t_0 t0时刻的瞬时速度，表示成如下形式：

v ( t 0 ) = lim ⁡ Δ t → 0 v ˉ = lim ⁡ Δ t → 0 Δ s Δ t = lim ⁡ Δ t → 0 s ( t 0 + Δ t ) − s ( t 0 ) Δ t v(t_0)=\lim_{\Delta t \to 0}{\bar{v}}=\lim_{\Delta t \to 0}{\frac{\Delta s}{\Delta t}}=\lim_{\Delta t \to 0}{\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t}} v(t0)=Δt→0limvˉ=Δt→0limΔtΔs=Δt→0limΔts(t0+Δt)−s(t0)

实际上，上式表示的是路程 s s s关于时间 t t t的函数在 t = t 0 t=t_0 t=t0处的导数。一般的，这样定义导数：如果平均变化率的极限存在，即有

lim ⁡ Δ x → 0 Δ y Δ x = lim ⁡ Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x \lim_{\Delta x \to 0}{\frac{\Delta y}{\Delta x}}=\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}} Δx→0limΔxΔy=Δx→0limΔxf(x0+Δx)−f(x0)

则称此极限为函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_0 x0 处的导数。记作 f ′ ( x 0 ) f’(x_0) f′(x0) 或 y ′ ∣ x = x 0 y’\vert_{x=x_0} y′∣x=x0 或 d y d x ∣ x = x 0 \frac{dy}{dx}\vert_{x=x_0} dxdy∣x=x0 或 d f ( x ) d x ∣ x = x 0 \frac{df(x)}{dx}\vert_{x=x_0} dxdf(x)∣x=x0。

通俗地说，导数就是曲线在某一点切线的斜率。

偏导数:

既然谈到偏导数(partial derivative)，那就至少涉及到两个自变量。以两个自变量为例， z = f ( x , y ) z=f(x,y) z=f(x,y)，从导数到偏导数，也就是从曲线来到了曲面。曲线上的一点，其切线只有一条。但是曲面上的一点，切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。

注意：直观地说，偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。

设函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)的领域内有定义，当 y = y 0 y=y_0 y=y0时， z z z可以看作关于 x x x的一元函数 f ( x , y 0 ) f(x,y_0) f(x,y0)，若该一元函数在 x = x 0 x=x_0 x=x0处可导，即有

lim ⁡ Δ x → 0 f ( x 0 + Δ x , y 0 ) − f ( x 0 , y 0 ) Δ x = A \lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A Δx→0limΔxf(x0+Δx,y0)−f(x0,y0)=A

函数的极限 A A A存在。那么称 A A A为函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处关于自变量 x x x的偏导数，记作 f x ( x 0 , y 0 ) f_x(x_0,y_0) fx(x0,y0)或 ∂ z ∂ x ∣ y = y 0 x = x 0 \frac{\partial z}{\partial x}\vert_{y=y_0}^{x=x_0} ∂x∂z∣y=y0x=x0或 ∂ f ∂ x ∣ y = y 0 x = x 0 \frac{\partial f}{\partial x}\vert_{y=y_0}^{x=x_0} ∂x∂f∣y=y0x=x0或 z x ∣ y = y 0 x = x 0 z_x\vert_{y=y_0}^{x=x_0} zx∣y=y0x=x0。

偏导数在求解时可以将另外一个变量看做常数，利用普通的求导方式求解，比如 z = 3 x 2 + x y z=3x^2+xy z=3x2+xy关于 x x x的偏导数就为 z x = 6 x + y z_x=6x+y zx=6x+y，这个时候 y y y相当于 x x x的系数。

某点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处的偏导数的几何意义为曲面 z = f ( x , y ) z=f(x,y) z=f(x,y)与面 x = x 0 x=x_0 x=x0或面 y = y 0 y=y_0 y=y0交线在 y = y 0 y=y_0 y=y0或 x = x 0 x=x_0 x=x0处切线的斜率。

1.2.2 导数和偏导数有什么区别？

导数和偏导没有本质区别，如果极限存在，都是当自变量的变化量趋于0时，函数值的变化量与自变量变化量比值的极限。

一元函数，一个 y y y对应一个 x x x，导数只有一个。

二元函数，一个 z z z对应一个 x x x和一个 y y y，有两个导数：一个是 z z z对 x x x的导数，一个是 z z z对 y y y的导数，称之为偏导。

求偏导时要注意，对一个变量求导，则视另一个变量为常数，只对改变量求导，从而将偏导的求解转化成了一元函数的求导。

1.3 特征值和特征向量

1.3.1 特征值分解与特征向量

特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors)；
特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么。

如果说一个向量 v ⃗ \vec{v} v 是方阵 A A A的特征向量，将一定可以表示成下面的形式：

A ν = λ ν A\nu = \lambda \nu Aν=λν

λ \lambda λ为特征向量 v ⃗ \vec{v} v 对应的特征值。特征值分解是将一个矩阵分解为如下形式：

A = Q ∑ Q − 1 A=Q\sum Q^{-1} A=Q∑Q−1

其中， Q Q Q是这个矩阵 A A A的特征向量组成的矩阵， ∑ \sum ∑是一个对角矩阵，每一个对角线元素就是一个特征值，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。也就是说矩阵 A A A的信息可以由其特征值和特征向量表示。

1.3.2 奇异值与特征值有什么关系

那么奇异值和特征值是怎么对应起来的呢？我们将一个矩阵 A A A的转置乘以 A A A，并对 A T A A^TA ATA求特征值，则有下面的形式：

( A T A ) V = λ V (A^TA)V = \lambda V (ATA)V=λV

这里 V V V就是上面的右奇异向量，另外还有：

σ i = λ i , u i = 1 σ i A V \sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}AV σi=λi ,ui=σi1AV

这里的 σ \sigma σ就是奇异值， u u u就是上面说的左奇异向量。【证明那个哥们也没给】

奇异值 σ \sigma σ跟特征值类似，在矩阵 ∑ \sum ∑中也是从大到小排列，而且 σ \sigma σ的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前 r r r（ r r r远小于 m 、 n m、n m、n）个的奇异值来近似描述矩阵，即部分奇异值分解：

A m × n ≈ U m × r ∑ r × r V r × n T A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T Am×n≈Um×rr×r∑Vr×nT

右边的三个矩阵相乘的结果将会是一个接近于 A A A的矩阵，在这儿， r r r越接近于 n n n，则相乘的结果越接近于 A A A。

1.4 概率分布与随机变量

1.4.1 机器学习为什么要使用概率

事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的，但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。

机器学习除了处理不确定量，也需处理随机量。不确定性和随机性可能来自多个方面，使用概率论来量化不确定性。

概率论在机器学习中扮演着一个核心角色，因为机器学习算法的设计通常依赖于对数据的概率假设。

例如在机器学习（Andrew Ng）的课中，会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设，用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件，单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的，因为某些单词几乎总是同时出现。然而，最终结果是，这个简单的假设对结果的影响并不大，且无论如何都可以让我们快速判别垃圾邮件。

1.4.2 变量与随机变量有什么区别

随机变量（random variable）

表示随机现象（在一定条件下，并不总是出现相同结果的现象称为随机现象）中各种结果的实值函数（一切可能的样本点）。例如某一时间内公共汽车站等车乘客人数，电话交换台在一定时间内收到的呼叫次数等，都是随机变量的实例。

随机变量与模糊变量的不确定性的本质差别在于，后者的测定结果仍具有不确定性，即模糊性。

变量与随机变量的区别：

当变量的取值的概率不是1时,变量就变成了随机变量；当随机变量取值的概率为1时,随机变量就变成了变量。

比如：

当变量 x x x值为100的概率为1的话,那么 x = 100 x=100 x=100就是确定了的,不会再有变化,除非有进一步运算.

当变量 x x x的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

1.4.3 随机变量与概率分布的联系

一个随机变量仅仅表示一个可能取得的状态，还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法，就是 概率分布(probability distribution).

随机变量可以分为离散型随机变量和连续型随机变量。

相应的描述其概率分布的函数是

概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布，通常用大写字母 P P P表示。

概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布，通常用小写字母 p p p表示。

1.4.4 离散型随机变量和概率质量函数

PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。

一般而言， P ( x ) P(x) P(x) 表示时 X = x X=x X=x的概率.
有时候为了防止混淆，要明确写出随机变量的名称 P ( P( P(x = x ) =x) =x)
有时候需要先定义一个随机变量，然后制定它遵循的概率分布x服从 P ( P( P(x ) ) )

PMF 可以同时作用于多个随机变量，即联合概率分布(joint probability distribution) P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y)*表示 X = x X=x X=x和 Y = y Y=y Y=y同时发生的概率，也可以简写成 P ( x , y ) P(x,y) P(x,y).

如果一个函数 P P P是随机变量 X X X 的 PMF，那么它必须满足如下三个条件

P P P的定义域必须是的所有可能状态的集合
∀ x ∈ ∀x∈ ∀x∈x, 0 ≤ P ( x ) ≤ 1 0 \leq P(x) \leq 1 0≤P(x)≤1.
∑ x ∈ X P ( x ) = 1 ∑_{x∈X} P(x)=1 ∑x∈XP(x)=1. 我们把这一条性质称之为归一化的(normalized)

1.4.5 连续型随机变量和概率密度函数

如果一个函数 p p p是x的PDF，那么它必须满足如下几个条件

p p p的定义域必须是x的所有可能状态的集合。
∀ x ∈ X , p ( x ) ≥ 0 ∀x∈X,p(x)≥0 ∀x∈X,p(x)≥0. 注意，我们并不要求$ p(x)≤1$，因为此处 p ( x ) p(x) p(x)不是表示的对应此状态具体的概率，而是概率的一个相对大小(密度)。具体的概率，需要积分去求。
∫ p ( x ) d x = 1 ∫p(x)dx=1 ∫p(x)dx=1, 积分下来，总和还是1，概率之和还是1.

注：PDF p ( x ) p(x) p(x)并没有直接对特定的状态给出概率，给出的是密度，相对的，它给出了落在面积为 δ x δx δx的无线小的区域内的概率为$ p(x)δx$. 由此，我们无法求得具体某个状态的概率，我们可以求得的是某个状态 x x x 落在某个区间 [ a , b ] [a,b] [a,b]内的概率为 ∫ a b p ( x ) d x \int_{a}^{b}p(x)dx ∫abp(x)dx.

1.4.6 举例理解条件概率

条件概率公式如下：

P ( A ∣ B ) = P ( A ∩ B ) / P ( B ) P(A|B) = P(A\cap B) / P(B) P(A∣B)=P(A∩B)/P(B)

说明：在同一个样本空间 Ω \Omega Ω中的事件或者子集 A A A与 B B B，如果随机从 Ω \Omega Ω中选出的一个元素属于 B B B，那么下一个随机选择的元素属于 A A A 的概率就定义为在 B B B的前提下 A A A的条件概率。条件概率文氏图示意如图1.1所示。

在这里插入图片描述

图1.1 条件概率文氏图示意

根据文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是 P ( A ⋂ B ) P(A\bigcap B) P(A⋂B)除以 P ( B ) P(B) P(B)。

举例：一对夫妻有两个小孩，已知其中一个是女孩，则另一个是女孩子的概率是多少？（面试、笔试都碰到过）

穷举法：已知其中一个是女孩，那么样本空间为男女，女女，女男，则另外一个仍然是女生的概率就是1/3。

条件概率法： P ( 女 ∣ 女 ) = P ( 女女 ) / P ( 女 ) P(女|女)=P(女女)/P(女) P(女∣女)=P(女女)/P(女),夫妻有两个小孩，那么它的样本空间为女女，男女，女男，男男，则 P ( 女女 ) P(女女) P(女女)为1/4， P （女） = 1 − P ( 男男 ) = 3 / 4 P（女）= 1-P(男男)=3/4 P（女）=1−P(男男)=3/4,所以最后 1 / 3 1/3 1/3。

这里大家可能会误解，男女和女男是同一种情况，但实际上类似姐弟和兄妹是不同情况。

1.4.7 联合概率与边缘概率联系区别

区别：

联合概率：联合概率指类似于 P ( X = a , Y = b ) P(X=a,Y=b) P(X=a,Y=b)这样，包含多个条件，且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。

边缘概率：边缘概率是某个事件发生的概率，而与其它事件无关。边缘概率指类似于 P ( X = a ) P(X=a) P(X=a)， P ( Y = b ) P(Y=b) P(Y=b)这样，仅与单个随机变量有关的概率。

联系：

联合分布可求边缘分布，但若只知道边缘分布，无法求得联合分布。

1.4.8 条件概率的链式法则

由条件概率的定义，可直接得出下面的乘法公式：

乘法公式设 A , B A, B A,B是两个事件，并且 P ( A ) > 0 P(A) > 0 P(A)>0, 则有

P ( A B ) = P ( B ∣ A ) P ( A ) P(AB) = P(B|A)P(A) P(AB)=P(B∣A)P(A)

推广

P ( A B C ) = P ( C ∣ A B ) P ( B ∣ A ) P ( A ) P(ABC)=P(C|AB)P(B|A)P(A) P(ABC)=P(C∣AB)P(B∣A)P(A)

一般地，用归纳法可证：若 P ( A 1 A 2 . . . A n ) > 0 P(A_1A_2…A_n)>0 P(A1A2…An)>0，则有

P ( A 1 A 2 . . . A n ) = P ( A n ∣ A 1 A 2 . . . A n − 1 ) P ( A n − 1 ∣ A 1 A 2 . . . A n − 2 ) . . . P ( A 2 ∣ A 1 ) P ( A 1 ) = P ( A 1 ) ∏ i = 2 n P ( A i ∣ A 1 A 2 . . . A i − 1 ) P(A_1A_2…A_n)=P(A_n|A_1A_2…A_{n-1})P(A_{n-1}|A_1A_2…A_{n-2})…P(A_2|A_1)P(A_1) =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2…A_{i-1}) P(A1A2…An)=P(An∣A1A2…An−1)P(An−1∣A1A2…An−2)…P(A2∣A1)P(A1)=P(A1)i=2∏nP(Ai∣A1A2…Ai−1)

任何多维随机变量联合概率分布，都可以分解成只有一个变量的条件概率相乘形式。

1.4.9 独立性和条件独立性

独立性

两个随机变量 x x x和 y y y，概率分布表示成两个因子乘积形式，一个因子只包含 x x x，另一个因子只包含 y y y，两个随机变量相互独立(independent)。

条件有时为不独立的事件之间带来独立，有时也会把本来独立的事件，因为此条件的存在，而失去独立性。

举例： P ( X Y ) = P ( X ) P ( Y ) P(XY)=P(X)P(Y) P(XY)=P(X)P(Y), 事件 X X X和事件 Y Y Y独立。此时给定 Z Z Z，

P ( X , Y ∣ Z ) ≠ P ( X ∣ Z ) P ( Y ∣ Z ) P(X,Y|Z) \not = P(X|Z)P(Y|Z) P(X,Y∣Z)=P(X∣Z)P(Y∣Z)

事件独立时，联合概率等于概率的乘积。这是一个非常好的数学性质，然而不幸的是，无条件的独立是十分稀少的，因为大部分情况下，事件之间都是互相影响的。

条件独立性

给定 Z Z Z的情况下, X X X和 Y Y Y条件独立，当且仅当

X ⊥ Y ∣ Z ⟺ P ( X , Y ∣ Z ) = P ( X ∣ Z ) P ( Y ∣ Z ) X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z) X⊥Y∣Z⟺P(X,Y∣Z)=P(X∣Z)P(Y∣Z)

X X X和 Y Y Y的关系依赖于 Z Z Z，而不是直接产生。

举例定义如下事件：

X X X：明天下雨；

Y Y Y：今天的地面是湿的；

Z Z Z：今天是否下雨；

Z Z Z事件的成立，对 X X X和 Y Y Y均有影响，然而，在 Z Z Z事件成立的前提下，今天的地面情况对明天是否下雨没有影响。

1.5 常见概率分布

1.5.1 Bernoulli分布

Bernoulli分布(伯努利分布，0-1分布)是单个二值随机变量分布, 单参数 ϕ \phi ϕ∈[0,1]控制, ϕ \phi ϕ给出随机变量等于1的概率. 主要性质有:

KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ P(x=1) &= \phi…

其期望和方差为：

KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ E_x[x] &= \phi…

适用范围: 伯努利分布适合对离散型随机变量建模.

Multinoulli分布也叫范畴分布, 是单个_k_值随机分布,经常用来表示对象分类的分布. 其中 k k k是有限值.Multinoulli分布由向量 p ⃗ ∈ [ 0 , 1 ] k − 1 \vec{p}\in[0,1]^{k-1} p ∈[0,1]k−1参数化,每个分量 p i p_i pi表示第 i i i个状态的概率, 且 p k = 1 − 1 T p p_k=1-1^Tp pk=1−1Tp.这里 1 T 1^T 1T表示元素全为1的列向量的转置，其实就是对于向量p中除了k的概率之和。可以重写为 p k = 1 − ∑ 0 k − 1 p i p_k=1-\sum_{0}^{k-1}p_i pk=1−∑0k−1pi 。

补充二项分布、多项分布：

二项分布，通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验，规定了每次试验的结果只有两个，如果现在还是做n次试验，只不过每次试验的结果可以有多m个，且m个结果发生的概率互斥且和为1，则发生其中一个结果X次的概率就是多项式分布。

1.5.2 高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:

N ( x ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)2 \right ) N(x;μ,σ2)=2πσ21 exp(−2σ21(x−μ)2)

其中, μ \mu μ和 σ \sigma σ分别是均值和标准差, 中心峰值x坐标由 μ \mu μ给出, 峰的宽度受 σ \sigma σ控制, 最大点在 x = μ x=\mu x=μ处取得, 拐点为 x = μ ± σ x=\mu\pm\sigma x=μ±σ

正态分布中，±1 σ \sigma σ、±2 σ \sigma σ、±3 σ \sigma σ下的概率分别是68.3%、95.5%、99.73%，这3个数最好记住。

此外, 令 μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1高斯分布即简化为标准正态分布:

N ( x ; μ , σ 2 ) = 1 2 π e x p ( − 1 2 x 2 ) N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ) N(x;μ,σ2)=2π1 exp(−21x2)

对概率密度函数高效求值:

N ( x ; μ , β − 1 ) = β 2 π e x p ( − 1 2 β ( x − μ ) 2 ) N(x;\mu,\beta^{{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)}2\right) N(x;μ,β−1)=2πβ exp(−21β(x−μ)2)

其中， β = 1 σ 2 \beta=\frac{1}{\sigma^2} β=σ21通过参数 β ∈ （ 0 ， ∞ ） \beta∈（0，\infty） β∈（0，∞）来控制分布精度。

1.5.3 何时采用正态分布

问: 何时采用正态分布?

答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

正态分布的推广:

正态分布可以推广到 R n R^n Rn空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵 Σ \Sigma Σ:

N ( x ; μ ⃗ , Σ ) = 1 ( 2 π ) n d e t ( Σ ) e x p ( − 1 2 ( x ⃗ − μ ⃗ ) T Σ − 1 ( x ⃗ − μ ⃗ ) ) N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^{ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})}T\Sigma^{-1}(\vec{x}-\vec{\mu})\right) N(x;μ ,Σ)=(2π)ndet(Σ)1 exp(−21(x −μ )TΣ−1(x −μ ))

对多为正态分布概率密度高效求值:

N ( x ; μ ⃗ , β ⃗ − 1 ) = d e t ( β ⃗ ) ( 2 π ) n e x p ( − 1 2 ( x ⃗ − μ ⃗ ) T β ( x ⃗ − μ ⃗ ) ) N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^{n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)}T\beta(\vec{x}-\vec\mu)\right) N(x;μ ,β −1)=det(β ) (2π)nexp(−21(x −μ )Tβ(x −μ ))

此处， β ⃗ \vec\beta β 是一个精度矩阵。

1.5.4 指数分布

深度学习中, 指数分布用来描述在 x = 0 x=0 x=0点处取得边界点的分布, 指数分布定义如下:

p ( x ; λ ) = λ I x ≥ 0 e x p ( − λ x ) p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x}) p(x;λ)=λIx≥0exp(−λx)

指数分布用指示函数 I x ≥ 0 I_{x\geq 0} Ix≥0来使 x x x取负值时的概率为零。

1.5.5 Laplace 分布（拉普拉斯分布）

一个联系紧密的概率分布是 Laplace 分布（Laplace distribution），它允许我们在任意一点 μ \mu μ处设置概率质量的峰值

L a p l a c e ( x ; μ ; γ ) = 1 2 γ e x p ( − ∣ x − μ ∣ γ ) Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right) Laplace(x;μ;γ)=2γ1exp(−γ∣x−μ∣)

1.5.6 Dirac分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克 δ \delta δ函数(也称为单位脉冲函数)定义如下:

p ( x ) = δ ( x − μ ) , x ≠ μ p(x)=\delta(x-\mu), x\neq \mu p(x)=δ(x−μ),x=μ

∫ a b δ ( x − μ ) d x = 1 , a < μ < b \int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b ∫abδ(x−μ)dx=1,a<μ<b

Dirac 分布经常作为经验分布（empirical distribution）的一个组成部分出现

p ^ ( x ⃗ ) = 1 m ∑ i = 1 m δ ( x ⃗ − x ⃗ ( i ) ) \hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{{m}\delta(\vec{x}-{\vec{x}}}{(i)}) p^(x )=m1i=1∑mδ(x −x (i))

, 其中, m个点 x 1 , . . . , x m x^{1},…,x{m} x1,…,xm是给定的数据集, 经验分布将概率密度 1 m \frac{1}{m} m1赋给了这些点.

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.

适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.

1.6 期望、方差、协方差、相关系数

1.6.1 期望

在概率论和统计学中，数学期望（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

线性运算： E ( a x + b y + c ) = a E ( x ) + b E ( y ) + c E(ax+by+c) = aE(x)+bE(y)+c E(ax+by+c)=aE(x)+bE(y)+c
推广形式： E ( ∑ k = 1 n a i x i + c ) = ∑ k = 1 n a i E ( x i ) + c E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c} E(∑k=1naixi+c)=∑k=1naiE(xi)+c
函数期望：设 f ( x ) f(x) f(x)为 x x x的函数，则 f ( x ) f(x) f(x)的期望为

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。