机器学习数学基础

最新推荐文章于 2022-11-22 10:59:08 发布

Fox_Alex

最新推荐文章于 2022-11-22 10:59:08 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Fox_Alex/article/details/121389024

版权

机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

机器学习1 机器学习数学基础

目录

机器学习1 机器学习数学基础
1. 概率统计
（1）常见的概率分布
a. 伯努利分布：0-1分布
b. 二项分布：n次伯努利分布，各次实验之间独立
c. 均匀分布
d. 高斯分布（正态）
e. 指数分布

（2）多变量概率分布
（3）全概率公式与贝叶斯公式
（4）方差与协方差

2. 矩阵
（1）矩阵基础
a. 矩阵
b. 张量
c. 矩阵的秩(Rank)
d. 矩阵的逆
e. 矩阵的广义逆矩阵
f. 矩阵的特征值、特征向量、迹、行列式

（2）矩阵分解
a. 矩阵特征值分解
b. 矩阵奇异值分解

3. 信息论
（1）基础知识
a. 熵(Entropy)
b. 联合熵
c. 条件熵
d. 互信息
e. 相对熵
f. 交叉熵

1. 概率统计

（1）常见的概率分布

a. 伯努利分布：0-1分布

$P (X = 1) = p, P (X = 0) = 1 - p$ .

b. 二项分布：n次伯努利分布，各次实验之间独立

$P(X = k) = C_n^kp^k(1-p)^{n-k}$
k次试验，每次试验事件发生概率为 $p$ ，不发生概率为 $1 - p$

c. 均匀分布

在给定区间[a, b]内分布概率是等可能的，参数为a、b，概率密度函数为 $\frac{1}{b-a}, \quad a < x <b$
在这里插入图片描述

d. 高斯分布（正态）

由均值μ和标准差σ决定其分布，概率密度函数为： $\frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}$

e. 指数分布

常用来表示独立随机事件发生的时间间隔，参数为λ>0的指数分布概率密度函数为： $\lambda e^{-\lambda x} \quad x \geq 0$
指数分布重要特征是无记忆性。

（2）多变量概率分布

条件概率：事件X在事件Y发生的条件下发生的概率，P(X|Y)
联合概率：表示两个事件X和Y共同发生的概率，P(X,Y)
条件概率和联合概率的性质： $\frac{P(Y,X)}{P(X)} \quad P(X ) > 0$ .
推广到 n 个事件，条件概率的链式法则： $\begin{aligned} P\left(X_{1}, X_{2}, \ldots, X_{n}\right) &=P\left(X_{1} \mid X_{2}, \ldots, X_{n}\right) P\left(X_{2} \mid X_{3}, X_{4}, \ldots, X_{n}\right) \ldots P\left(X_{n-1} \mid X_{n}\right) P\left(X_{n}\right) \ &=P\left(X_{n}\right) \prod_{i=1}^{n-1} P\left(X_{i} \mid X_{i+1}, \ldots, X_{n}\right) \end{aligned}$
先验概率(Prior probability)：根据以往经验和分析得到的概率，在事件发生前已知，它往往作为“由因求果”问题中的“因”出现。

后验概率(Posterior probability)：指得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因”，后验概率是基于新的信息，修正后来的先验概率所获得的更接近实际情况的概率估计。

（3）全概率公式与贝叶斯公式

全概率公式：设事件 ${A_i}$ 是样本空间 $Ω$ 的一个划分，且 $P(A_i)>0(i=1,2,...,n)$ ，那么： $\sum_{i = 1}^nP(A_i)P(B|A_i)$ .

贝叶斯公式：全概率公式给我们提供了计算后验概率的途径，即贝叶斯公式 $P\left(\mathrm{~A}{i} \mid \mathrm{B}\right)=\frac{P\left(\mathrm{~B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{P(\mathrm{~B})}=\frac{P\left(\mathrm{~B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{\sum{j=1}^{n} P\left(\mathrm{~A}{j}\right) P\left(\mathrm{~B} \mid \mathrm{A}{j}\right)}$

（4）方差与协方差

方差：衡量随机变量与数学期望之间的偏离程度。统计中的方差则为样本方差，是各个样本数据分别与其平均数之差的平方和的平均数：
$Var\left( X \right) =E\left\{ \left[ x-E\left( x \right) \right] ^2 \right\} =E\left( x^2 \right) -\left[ E\left( x \right) \right] ^2$

协方差：衡量两个随机变量X和Y直接的总体误差：
$Cov\left( X,Y \right) =E\left\{ \left[ x-E\left( x \right) \right] \left[ y-E\left( y \right) \right] \right\} =E\left( xy \right) -E\left( x \right) E\left( y \right)$

2. 矩阵

（1）矩阵基础

a. 矩阵

二维数组，其中每一个元素一般由两个索引来确定一般用大写变量表示，m行n列的实数矩阵，记做 $\in R_{m \times n}$ 。

b. 张量

在这里插入图片描述

c. 矩阵的秩(Rank)

矩阵列向量中的极大线性无关组的数目，记作矩阵的列秩，同样可以定义行秩。行秩=列秩=矩阵的秩，通常记作rank(A)。

d. 矩阵的逆

若矩阵A为方阵，当 $rank(A_{n×n})<n$ 时，称A为奇异矩阵或不可逆矩阵；
若矩阵A为方阵，当 $rank(A_{n×n})=n$ 时，称A为非奇异矩阵或可逆矩阵，其逆矩阵 $A^{-1}$ 满足以下条件，则称 $A^{-1}$ 为矩阵A的逆矩阵： $AA^{-1} = A^{-1}A = I_n$ 其中 $I_n$ 是 $n \times n$ 的单位阵。

e. 矩阵的广义逆矩阵

如果矩阵不为方阵或者是奇异矩阵，不存在逆矩阵，但是可以计算其广义逆矩阵或者伪逆矩阵；对于矩阵A，如果存在矩阵 $B$ 使得 $A B A = A$ ，则称 $B$ 为 $A$ 的广义逆矩阵。

f. 矩阵的特征值、特征向量、迹、行列式

若矩阵 $A$ 为方阵，则存在非零向量 $x$ 和常数 $\lambda$ 满足 $Ax=\lambda x$ ，则称 $ \lambda$ 为矩阵 $ A$ 的一个特征值， $x$ 为矩阵 $A$ 关于 $\lambda$ 的特征向量。
$A_{n \times n}$ 的矩阵具有 $n$ 个特征值， $λ_1 ≤ λ_2 ≤ ⋯ ≤ λ_n$ 其对应的n个特征向量为 $𝒖_1，𝒖_2， ⋯ ，𝒖_𝑛$ 。
矩阵的迹(trace)和行列式(determinant)的值分别为
$\operatorname{tr}(\mathrm{A})=\sum_{i=1}^{n} \lambda_{i} \quad|\mathrm{~A}|=\prod_{i=1}^{n} \lambda_{i}$

（2）矩阵分解

a. 矩阵特征值分解

$A_{n \times n}$ 的矩阵具有 $n$ 个不同的特征值，那么矩阵A可以分解为 $U\Sigma U^{T}$ .
其中 $\sum{=\left[ \begin{matrix} \lambda _1& 0& ...& 0\\ 0& \lambda _2& ...& 0\\ 0& 0& ...& 0\\ 0& 0& ...& \lambda _n\\ \end{matrix} \right]},$
$U=\left[ u_1,u_2,...,u_n \right] ,$
$\lVert u_i \rVert _2=1$

b. 矩阵奇异值分解

对于任意矩阵 $A_{m \times n}$ ，存在正交矩阵 $U_{m \times m}$ 和 $V_{n \times n}$ ，使其满足 $\Sigma V^{T} \quad U^T U = V^T V = I$ ，则称上式为矩阵 $A$ 的特征分解。
在这里插入图片描述

3. 信息论

（1）基础知识

a. 熵(Entropy)

信息熵，可以看作是样本集合纯度一种指标，也可以认为是样本集合包含的平均信息量。假定当前样本集合X中第i类样本 $𝑥_𝑖$ 所占的比例为 $P(𝑥_𝑖)(i=1,2,...,n)$ ，则X的信息熵定义为： $-\sum_{i = 1}^n P(x_i)\log_2P(x_i) ,$ H(X)的值越小，则X的纯度越高，蕴含的不确定性越少

b. 联合熵

两个随机变量X和Y的联合分布可以形成联合熵，度量二维随机变量XY的不确定性： $-\sum_{i = 1}^n \sum_{j = 1}^n P(x_i,y_j)\log_2 P(x_i,y_j)$

c. 条件熵

在随机变量X发生的前提下，随机变量Y发生带来的熵，定义为Y的条件熵，用H(Y|X)表示，定义为： $KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ H(Y|X) &= \sum…$ 条件熵用来衡量在已知随机变量X的条件下，随机变量Y的不确定。熵、联合熵和条件熵之间的关系： $H (Y ∣ X) = H (X, Y) - H (X)$ 。

d. 互信息

$I (X; Y) = H (X) + H (Y) - H (X, Y)$

e. 相对熵

相对熵又称KL散度，是描述两个概率分布P和Q差异的一种方法，记做D(P||Q)。在信息论中，D(P||Q)表示用概率分布Q来拟合真实分布P时，产生的信息表达的损耗，其中P表示信源的真实分布，Q表示P的近似分布。
离散形式： $\sum P(x)\log \frac{P(x)}{Q(x)}$ .
连续形式： $\int P(x)\log \frac{P(x)}{Q(x)}$ .

f. 交叉熵

一般用来求目标与预测值之间的差距，深度学习中经常用到的一类损失函数度量，比如在对抗生成网络( GAN )中
$\begin{aligned} D\left( P||Q \right) &=\sum{P}\left( x \right) \log \frac{P\left( x \right)}{Q\left( x \right)}\,\,=\sum{P}\left( x \right) \log P\left( x \right) -\sum{P}\left( x \right) \log Q\left( x \right) \,\,=-H\left( P\left( x \right) \right) -\sum{P}\left( x \right) \log Q\left( x \right)\\ \end{aligned}$

交叉熵： $-\sum P(x)\log Q(x)$ .

参考：
1. DataWhale组队学习-机器学习基础

Fox_Alex

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习数学基础

机器学习1 机器学习数学基础目录机器学习1 机器学习数学基础1. 概率统计（1）常见的概率分布a. 伯努利分布：0-1分布b. 二项分布：n次伯努利分布，各次实验之间独立c. 均匀分布d. 高斯分布（正态）e. 指数分布（2）多变量概率分布（3）全概率公式与贝叶斯公式（4）方差与协方差2. 矩阵（1）矩阵基础a. 矩阵b. 张量c. 矩阵的秩(Rank)d. 矩阵的逆e. 矩阵的广义逆矩阵f. 矩阵的特征值、特征向量、迹、行列式（2）矩阵分解a. 矩阵特征值分解b. 矩阵奇异值分解3. 信息论（1）基础
复制链接

扫一扫