1.机器学习数学基础

最新推荐文章于 2024-09-14 20:23:55 发布

ML newbie

最新推荐文章于 2024-09-14 20:23:55 发布

阅读量511

点赞数

文章标签：数学基础机器学习深度学习凸优化

本文链接：https://blog.csdn.net/aievolution/article/details/103227803

版权

基本内容

微积分

线性代数

概率论与数理统计

凸优化

微积分

1.极限定义：

数学记号
$\underset{x\to {{x}_{0}}}{\mathop{\lim }}f(x)=L$
精确定义
$对于任意正数\epsilon>0，存在正数\delta，使得任何满足| x -x_{0}|<\delta的x,都有 | f(x)-L|<\epsilon.$

2.导数定义：

导数的概念:
$f'({{x}_{0}})=\underset{x\to {{x}_{0}}}{\mathop{\lim }}\,\frac{f(x)-f({{x}_{0}})}{x-{{x}_{0}}}$ （1）
函数导数的本质：通过极限的概念对函数的局部线性逼近

3.泰勒公式

设函数 $f (x)$ 在点 ${{x}_{0}}$ 处的某邻域内具有 $n + 1$ 阶导数，则对该邻域内异于 ${{x}_{0}}$ 的任意点 $x$ ，在 ${{x}_{0}}$ 与 $x$ 之间至少存在一个 $\xi$ ，使得：
$f(x)=f({{x}_{0}})+{f}'({{x}_{0}})(x-{{x}_{0}})+\frac{1}{2!}{f}''({{x}_{0}}){{(x-{{x}_{0}})}^{2}}+\cdots$
$+\frac{{{f}^{(n)}}({{x}_{0}})}{n!}{{(x-{{x}_{0}})}^{n}}+{{R}_{n}}(x)$
其中 ${{R}_{n}}(x)=\frac{{{f}^{(n+1)}}(\xi )}{(n+1)!}{{(x-{{x}_{0}})}^{n+1}}$ 称为 $f (x)$ 在点 ${{x}_{0}}$ 处的 $n$ 阶泰勒余项。

令 ${{x}_{0}}=0$ ，则 $n$ 阶泰勒公式
$f(x)=f(0)+{f}'(0)x+\frac{1}{2!}{f}''(0){{x}^{2}}+\cdots +\frac{{{f}^{(n)}}(0)}{n!}{{x}^{n}}+{{R}_{n}}(x)$ ……(1)
其中 ${{R}_{n}}(x)=\frac{{{f}^{(n+1)}}(\xi )}{(n+1)!}{{x}^{n+1}}$ ， $\xi$ 在0与 $x$ 之间.(1)式称为麦克劳林公式

线性代数

1.线性空间与基：
实系数线性空间是一个由向量组成的集合, 向量之间可以做加减
法, 向量与实数之间可以做乘法, 而且这些加，减，乘运算要求满
足常见的交换律和结合律. 我们也可以类似地定义其他系数的线
性空间。
2. $\mathbf{n}$ 维向量空间的基变换公式及过渡矩阵

若 $\alpha_{1},\alpha_{2},\cdots,\alpha_{n}$ 与 $\beta_{1},\beta_{2},\cdots,\beta_{n}$ 是向量空间 $V$ 的两组基，则基变换公式为：

$(\beta_{1},\beta_{2},\cdots,\beta_{n}) = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})\begin{bmatrix} c_{11}& c_{12}& \cdots & c_{1n} \\ c_{21}& c_{22}&\cdots & c_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ c_{n1}& c_{n2} & \cdots & c_{{nn}} \\\end{bmatrix} = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})C$

其中 $C$ 是可逆矩阵，称为由基 $\alpha_{1},\alpha_{2},\cdots,\alpha_{n}$ 到基 $\beta_{1},\beta_{2},\cdots,\beta_{n}$ 的过渡矩阵。

3.坐标变换公式

若向量 $\gamma$ 在基 $\alpha_{1},\alpha_{2},\cdots,\alpha_{n}$ 与基 $\beta_{1},\beta_{2},\cdots,\beta_{n}$ 的坐标分别是
${(x_{1},x_{2},\cdots,x_{n})}^{T}$ ，

$\left( y_{1},y_{2},\cdots,y_{n} \right)^{T}$ 即： $\gamma =x_{1}\alpha_{1} + x_{2}\alpha_{2} + \cdots + x_{n}\alpha_{n} = y_{1}\beta_{1} +y_{2}\beta_{2} + \cdots + y_{n}\beta_{n}$ ，则向量坐标变换公式为 $X = C Y$ 或 $Y = C^{- 1}X$ ，其中 $C$ 是从基 $\alpha_{1},\alpha_{2},\cdots,\alpha_{n}$ 到基 $\beta_{1},\beta_{2},\cdots,\beta_{n}$ 的过渡矩阵。

4. $\mathbf{n}$ 个变量 $\mathbf{x}_{\mathbf{1}}\mathbf{,}\mathbf{x}_{\mathbf{2}}\mathbf{,\cdots,}\mathbf{x}_{\mathbf{n}}$ 的二次齐次函数

$f(x_{1},x_{2},\cdots,x_{n}) = \sum_{i = 1}^{n}{\sum_{j =1}^{n}{a_{{ij}}x_{i}y_{j}}}$ ，其中 $a_{{ij}} = a_{{ji}}(i,j =1,2,\cdots,n)$ ，称为 $n$ 元二次型，简称二次型. 若令 $\ \begin{bmatrix}x_{1} \\ x_{1} \\ \vdots \\ x_{n} \\ \end{bmatrix},A = \begin{bmatrix} a_{11}& a_{12}& \cdots & a_{1n} \\ a_{21}& a_{22}& \cdots & a_{2n} \\ \cdots &\cdots &\cdots &\cdots \\ a_{n1}& a_{n2} & \cdots & a_{{nn}} \\\end{bmatrix}$ ,这二次型 $f$ 可改写成矩阵向量形式 $f =x^{T}{Ax}$ 。其中 $A$ 称为二次型矩阵，因为 $a_{{ij}} =a_{{ji}}(i,j =1,2,\cdots,n)$ ，所以二次型矩阵均为对称矩阵，且二次型与对称矩阵一一对应，并把矩阵 $A$ 的秩称为二次型的秩。

5.惯性定理，二次型的标准形和规范形

(1) 惯性定理

对于任一二次型，不论选取怎样的合同变换使它化为仅含平方项的标准型，其正负惯性指数与所选变换无关，这就是所谓的惯性定理。

(2) 标准形

二次型 $\left( x_{1},x_{2},\cdots,x_{n} \right) =x^{T}{Ax}$ 经过合同变换 $x = {Cy}$ 化为 $f = x^{T}{Ax} =y^{T}C^{T}{AC}$

$\sum_{i = 1}^{r}{d_{i}y_{i}^{2}}$ 称为 $\leq n)$ 的标准形。在一般的数域内，二次型的标准形不是唯一的，与所作的合同变换有关，但系数不为零的平方项的个数由 $r (A)$ 唯一确定。

(3) 规范形

任一实二次型 $f$ 都可经过合同变换化为规范形 $z_{1}^{2} + z_{2}^{2} + \cdots z_{p}^{2} - z_{p + 1}^{2} - \cdots -z_{r}^{2}$ ，其中 $r$ 为 $A$ 的秩， $p$ 为正惯性指数， $r - p$ 为负惯性指数，且规范型唯一。

概率论与数理统计

1.随机变量及概率分布
取值带有随机性的变量，严格地说是定义在样本空间上，取值于实数的函数称为随机变量，概率分布通常指分布函数或分布律.
离散随机变量
假设随机变量 X 的取值域为 $\left\{ x_i \right\}^\infty_{i=1}$ ，那么对于任何一个
$x_i$ ，事件 $X = x_i$ 的概率记为 $P(x_i)$ .
对于 $Ω$ 的任何一个子集 $\left\{ x_{k_i }\right\}^\infty_{i=1}$ ，事件 $X \in S$ 的概率为
$\sum_{i=1}^\infty P(x_i)$
对于离散随机变量，概率为概率函数的求和.
连续随机变量
假设随机变量 $X$ 的取值域为 $R$ ，那么对于几乎所有 $x \in R$ , 事件
$X = x$ 的概率 $P (X = x)$ 都等于 0. 所以我们转而定义概率密度
函数 $f : R \to [0, \infty)$ . 对于任何区间 $(a, b)$ , 事件 $X \in (a, b)$ 的概
率为 $∫^b_a f(x)dx$

对于连续型随机变量，概率为概率密度函数的积分.
不论是离散还是连续型随机变量, 概率函数和概率密度函数
的定义域即为这个随机变量的值域.

2.分布函数的概念与性质

定义： $\leq x), - \infty < x < + \infty$

(1) $\leq F(x) \leq 1$

(2) $F (x)$ 单调不减

(3) 右连续 $F (x + 0) = F (x)$

(4) $\infty) = 0,F( + \infty) = 1$

3.条件分布
(1)条件概率:
$P(B|A)=\frac{P(AB)}{P(A)}$ ,表示 $A$ 发生的条件下， $B$ 发生的概率。

(2)全概率公式：
$P(A)=\sum\limits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}}),{{B}_{i}}{{B}_{j}}}=\varnothing ,i\ne j,\underset{i=1}{\overset{n}{\mathop{\bigcup }}}\,{{B}_{i}}=\Omega$

(3) Bayes公式：

$P({{B}_{j}}|A)=\frac{P(A|{{B}_{j}})P({{B}_{j}})}{\sum\limits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}})}},j=1,2,\cdots ,n$
注：上述公式中事件 ${{B}_{i}}$ 的个数可为可列个。

凸优化

简介
优化问题的一般形式
最小化： $f_0(x)$
条件： $f_i(x) ≤ b_i , i = 1, · · · , m.$
其中 $f_0(x)$ 为目标函数，条件里的不等式是限制条件.
凸优化问题的一般形式
一个优化问题如果满足如下条件则为凸优化问题

凸优化问题的条件, $f_0, f_1, · · · , f_m$ 都是凸函数.
凸优化问题的特点, 局部最优等价于全局最优.

举例
极大似然估计
如果 $L (µ, σ)$ 是一个极大似然估计问题中的似然函数，其中 $µ, σ$
分别是期望和方差，那么极大似然估计的问题转化为
最小化： $- L (µ, σ)$
条件： $σ \geq 0$
最小二乘法
如果 $A_{n×k}$ 是一个矩阵, $b ∈ R_n$ 是一个向量, 对于 $x ∈ R_k$
最小化： $f_0(x) = |Ax -b|^2$

凸集合与凸函数
凸集合定义
如果一个集合 $Ω$ 中任何两个点之间的线段上任何一个点还属于
$Ω$ , 那么 $Ω$ 就是一个凸集合.i.e.
$λx_1 + (1 - λ)x_2 ∈ Ω, ∀x_1, x_2 ∈ Ω, λ ∈(0,1)$
凸函数定义
如果一个函数 $f$ 定义域 $Ω$ 是凸集，而且对于任何两点. 以及两
点之间线段上任意一个点都有
$f(λx_1 + (1 - λ)x_2) ≤ λf(x_1) + (1 -λ)f(x_2) ∀x_1, x_2 ∈ Ω, λ ∈ (0, 1)$
凸组合
对于任何 $n$ 个点 $\left\{ x_i \right\}_{i=1}^n, 以及权重系数 \left\{ w_i \right\}_{i=1}^n$ . 若权重系数非
负 $w_i ≥ 0$ 而且 $\sum^n_{i=1}w_i=1$
，则线性组合 $∑^n_{i=1} w_ix_i$
为一个凸组合.
凸集合性质
$假设 Ω 是一个凸集合，那么 Ω 任意 n 个点的凸组合仍包含于 Ω .$
凸函数性质：琴生 (Jensen) 不等式
$\left\{x_i ∈ Ω\right\}^n_{i=1}, 以及凸组合∑^n_{i=1} w_ix_i 都有$
$∑^n_{i=1} w_if(x_i) ≥ f(∑^n_{i=1} w_ix_i)$
凸优化问题求解 (KKT)
我们来看一下如果强对偶性满足的话，这些最优化点应该满足何
种条件. 这一部分中我们假定所有的函数都是可微函数.
如果 $x^∗,(λ^∗ , ν^∗)$ 分别是原问题与对偶问题的最优解，那么首先
这些点应该满足可行域条件

$f_i(x^∗) ≤ 0$
$h_i(x^∗) = 0$
$λ^∗_i ≥0$

其次我们已经知道
$d^∗ = g(λ^∗ , ν^∗)$
$f_0(x^∗ ) +∑^m_{i=1} λ^∗_i f_i(x^∗ ) +∑^p_{i=1} ν^∗_i h_i(x^∗)$
$f_0(x^∗ ) +∑^m_{i=1} λ^∗_i f_i(x^∗)$
$f_0(x^∗) = p^∗$
$于是 d^∗ = p^∗ 意味着上述不等式全都是等式.$
凸优化问题求解 (KKT)
KKT 条件
$f_i(x^∗) ≤ 0, i = 1, · · · , m$
$h_i(x^∗ ) = 0, i = 1,· · · , p$
$λ^∗_i ≥ 0, i = 1, · · · , m$
$λ^∗_i f_i(x^∗ ) = 0, i = 1, · · · , m$
$_xL(x^∗ , λ^∗ , ν^∗ ) = 0$
KKT 条件使用
对于凸优化问题,KKT 条件是 $x^∗, (λ^∗ , ν^∗)$ 分别作为原问题和
对偶问题的最优解的充分必要条件.
对于非凸优化问题，KKT 条件仅仅是必要而非充分.
4.Newton法：
牛顿法是一种求解局部极值的算法

这种方法只能寻找局部极值
这种方法要求必须给出一个初始点 $x_0$
数学原理：牛顿法使用二阶逼近
牛顿法对局部凸的函数找到极小值，对局部凹的函数找到极大值，对局部不凸不凹的可能会找到鞍点。
牛顿法要求估计二阶导数.
牛顿法：二次逼近
首先在初始点 $x_0$ 处，写出二阶泰勒级数
$f(x)=f({{x}_{0}})+{f}'({{x}_{0}})(x-{{x}_{0}})+\frac{1}{2!}{f}''({{x}_{0}}){{(x-{{x}_{0}})}^{2}}+o(x-x_0)^2$

令 $\Delta x=x-x_0$ ,我们知道关于 $∆ x$ 的二次函数 $g (∆ x)$ 的极值点为 $-\frac{f\prime(x_0)}{f\prime\prime(x_0)}$
那么本着逼近的精神 $f (x)$ 的极值点估计在 $x_0-\frac{f\prime(x_0)}{f\prime\prime(x_0)}$ 附近,于是定义
$x_1=x_0-\frac{f\prime(x_0)}{f\prime\prime(x_0)}$ ，并重复此步骤得到序列
$x_n=x_{n-1}-\frac{f\prime(x_{n-1})}{f\prime\prime(x_{n-1})}$
当初始点选的比较好的时候 $\underset{x \rightarrow \infty}{lim}x_n$ 收敛于一个局部极值