ccc-机器学习数学基础-2

扔出去的回旋镖

已于 2022-09-09 21:48:45 修改

阅读量413

点赞数

分类专栏：机器学习数学基础文章标签：机器学习

于 2022-09-08 23:10:11 首次发布

本文链接：https://blog.csdn.net/liubi32326/article/details/126752570

版权

机器学习数学基础专栏收录该内容

3 篇文章 0 订阅

订阅专栏

偏向于理解，不涉及证明

一、向量、矩阵、张量

一个一维数组（行或者列）被称作为向量，同时满足具有大小和方向两个性质
向量的范数：

0范数，即向量a中非零元素的个数，常表示为||a|| ₀
1范数，即向量a中所有元素绝对值之和，公式表示为 $||x||_1 = \sum_{i=1}^N|x_i|$
2范数，又称欧几里得范数，向量元素绝对值的平方和再开方,公式表示为 $||\textbf{x}||_2 =\sqrt{\sum_{i=1}^Nx_i^2}$
p-范数，向量元素绝对值的p次方和的1/p次幂,公式表示为 $||\textbf{x}||_p = (\sum_{i=1}^N|x_i|^p)^{\frac{1}{p}}$

矩阵是数字（或其他数学对象）的矩形数组

矩阵的逆：对于矩阵A，如果存在一个矩阵B，使得AB=BA=E，其中E为与A,B同维数的单位阵，就称A为可逆矩阵（或者称A可逆），并称B是A的逆矩阵
矩阵的伪逆：Moore-Penrose广义逆的四个条件
1.) $AA^{\mathrm {g} }A=A} {\displaystyle AA^{\mathrm {g} }A=A$
2.) $A^{\mathrm {g} }AA^{\mathrm {g} }=A^{\mathrm {g} }} {\displaystyle A^{\mathrm {g} }AA^{\mathrm {g} }=A^{\mathrm {g} }$
3.) $(AA^{\mathrm {g} })^{\mathrm {T} }=AA^{\mathrm {g} }} {\displaystyle (AA^{\mathrm {g} })^{\mathrm {T} }=AA^{\mathrm {g} }$
4.) $(A^{\mathrm {g} }A)^{\mathrm {T} }=A^{\mathrm {g} }A} {\displaystyle (A^{\mathrm {g} }A)^{\mathrm {T} }=A^{\mathrm {g} }A$
如果一个矩阵有逆矩阵，那么其也是唯一的广义逆矩阵

张量是多维数组，暂时可理解为多个矩阵的叠加

二、线性方程组

线性方程组是一个或多个涉及相同变量的线性方程组的集合

二次型:含有n个变量的二次齐次多项式
二次型矩阵:xTAx,其中A为实对称矩阵

正定性

若 $f(x_{1},x_{2}...x_{n})=X^{T}AX> 0$ 恒成立，则称f为一个正定二次型，称A为正定矩阵
若 $f(x_{1},x_{2}...x_{n})=X^{T}AX\geq 0$ 恒成立，则称f为一个半正定二次型，称A为半正定矩阵
若 $f(x_{1},x_{2}...x_{n})=X^{T}AX< 0$ 恒成立，则称f为一个负定二次型，称A为负定矩阵
若 $f(x_{1},x_{2}...x_{n})=X^{T}AX\leq 0$ 恒成立，则称f为一个半负定二次型，称A为半负定矩阵

矩阵分解
矩阵分解是将矩阵分解为矩阵的乘积

特征分解：D是由 A 的特征值形成的对角矩阵，V的列是A的相应特征向量。适用于具有线性独立特征向量（不一定是不同的特征值）的方阵 A。
$A=VDV^{-1}$
奇异值分解：D是非负对角矩阵, U和V满足 $U^{*}U=I,V^{*}V=I$ 。具有更大的通用性，因为所考虑的矩阵不必是正方形
$A=UDV^{*}$

二、概率论相关

随机变量与随机分布
随机变量是从样本空间中的可能结果到可测量空间的映射或函数，通常是实数。

概率分布是事件概率的数学描述，是样本空间的子集。样本空间，通常表示为 Ω

常见概率分布:

伯努利分布：一个离散型机率分布，是N=1时二项分布的特殊情况
$f(k;p)=p^{k}(1-p)^{1-k}\quad {\text{for }}k\in \{0,1\}$
期望： $\operatorname {E} \left(X\right)=p$
方差： $\operatorname {D} [X]=pq=p(1-p)$

二项分布:独立重复地进行 n 次试验中，成功 x 次的概率
$f(k,n,p)=\Pr(k;n,p)=\Pr(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}$
期望： $\operatorname {E} [X]=np$
方差： $\operatorname {D} (X)=npq=np(1-p)$

泊松分布：给定数量的事件在固定的时间或空间间隔内发生的概率
$\!f(k; \lambda)= \Pr(X{=}k)= \frac{\lambda^k e^{-\lambda}}{k!}$
期望： $\lambda =\operatorname {E} (X)=\operatorname {Var} (X)$
方差： $\lambda =\operatorname {E} (X)=\operatorname {Var} (X)$

贝叶斯定理：描述了事件的概率，它基于可能与事件相关的条件的先验知识
$P(A\mid B)={\frac {P(B\mid A)P(A)}{P(B)}}$

期望、方差和条件数学期望
期望是加权平均的概括
方差是随机变量与其总体均值或样本均值的平方偏差的期望值
条件期望数学期望是在给定一组特定的“条件”的期望值

大数定律
描述多次执行相同实验的结果的定理。据规律，大量试验所得结果的平均值应接近预期值，并且随着试验次数的增加，趋于接近预期值。仅适用于平均值
$\lim _{n\to \infty }\sum _{i=1}^{n}{\frac {X_{i}}{n}}={\overline {X}}$
弱定律（也称为Khinchin定律）指出样本平均值以概率收敛于期望值
$\lim _{n\to \infty }\Pr \!\left(\,|{\overline {X}}_{n}-\mu |<\varepsilon \,\right)=1.$
强定律（也称为Kolmogorov定律）表明样本平均值几乎肯定会收敛到期望值
$\Pr \!\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1.$