一些数值计算的知识

最新推荐文章于 2021-06-30 23:02:41 发布

Danliwoo

最新推荐文章于 2021-06-30 23:02:41 发布

阅读量973

点赞数

分类专栏：机器学习文章标签：机器学习数学

本文链接：https://blog.csdn.net/danliwoo/article/details/53993217

版权

机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

标签：机器学习

计算机进行计算时有几个问题：

用理论上等价的算法，在实际计算中会产生误差。如何保证数值稳定性？
数据量大难以计算？利用迭代算法

了解并运用一些数学知识有助于更好地进行机器学习。

正定矩阵

A是对称正定矩阵1，则
$A T = A, v T A v > 0 (v \neq 0)$ $A^T = A, v^T Av > 0 (v \neq 0)$

性质：

所有特征值大于0
存在满秩矩阵X， $A=XX^T$
可作为高斯分布的协方差矩阵

而当 $v^T Av \geq 0$ 时，A为半正定矩阵，此时性质1,2,3均不成立，它只能作为退化的协方差矩阵。

Cholesky分解

对于对称正定矩阵，找到下三角矩阵L，满足 $LL^T=A$ ，之后有关A的运算用L来代替，如图即可唯一分解出L

L的性质为：对角元全大于0.

分解的复杂度为O( $n^3$ )。

应用：

$Ax = b$ 已知A，b求x
一般的求 $A^{-1}$ 复杂度较高，因此带入分解因子 $LL^Tx=b$ ,换元如下
[1] : $Lv = b$ ,
[2] : $L^T x = v$
先求v，再求x，利用L是下三角矩阵的性质，复杂度为O( $n^2$ )
求 $log |A|$
$log |A| = 2 log |L| = 2log\sum_{i=1}^n l_{i,i}$
求 $b^T A^{−1} b$
令 $b^T A^{−1} b= ||v||^2$ ,代入 $b^T (LL^T)^{−1} b= ||v||^2$ ，得 $Lv = b$ ，只需O( $n^2$ )求出v。
多元高斯分布换元
$Σ = LL^T , μ = La$ 稳定性更好，复杂度更小。

奇异值分解(SVD)

$A = U ΛV^T \in R^{m×n}, 其中U^T U = I, V^T V = I, Λ 为对角矩阵, λ_i ≥ 0$
奇异值矩阵 $Λ\in R^{d×d}，d=min(m,n)$

性质：

$A^TA=(U ΛV^T)^TU ΛV^T=VΛ^2V^T$
A对称时，U=VD，D为对称矩阵， $d_i\in\{1,-1\}$
若A正定，SVD就成为特征分解
复杂度为O( $n^3$ )
比Cholesky分解慢，但是准确

应用：

主成分分析(PCA)，用于降维
线性近似
规范化(Laplace)

网上有一篇博客讲得很好，奇异值分解(SVD)原理详解及推导。

共轭梯度算法(Conjugate Gradient Algorithm, CG)

共轭梯度法是介于最速下降法与牛顿法之间的一个方法，它仅需利用一阶导数信息，但克服了最速下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点，共轭梯度法不仅是解决大型线性方程组最有用的方法之一，也是解大型非线性最优化最有效的算法之一。

用于找到局部最小值，每次朝着变化梯度最大的方向走，直到变化为0，即到了最小值。

若非零向量u,v满足 $u^TAv=0(A为对称矩阵)$ ,则u,v是关于A正交的，也称共轭。

如下列问题：
对于正定矩阵A，求出最优参数 $X_*=argmin\{q(x)={1\over 2}x^TAx-b^Tx\}$
首先求导 $g(x)=\nabla q(x)=Ax-b$

初始位置为 $x_0$
遍历k个方向，令 $g_{k-1}=g(x_{k-1})$ ，以及以前的方向来确认 $d_k$ ，即下一步的方向，再偏移到该方向使 $x_k=x_{k-1}+\alpha_kd_k$ ，走多远由 $\alpha_k$ 决定， $\alpha_k=argmin(q(x_k))$
重复步骤2直到q是最小值。

步骤里要解决的问题有：

$d_k$ 的取向？
要使得下降最快，应该朝着最陡的方向(Steepest Descent)，即 $d_k=-g_{k-1}$ 。比SD更好的办法是新的梯度总是正交于旧的方向。由此可以得到 $g k + 1 = A (x k + α k + 1 d k + 1) - b = g k + α k + 1 A d k + 1 (Δ)$ $g_{k+1}=A(x_k+\alpha_{k+1}d_{k+1})-b=g_k+\alpha_{k+1}Ad_{k+1}~~(\Delta)$ $0 = g T k + 1 d k = g T k d k + α k + 1 d T k + 1 A d k$ $0=g_{k+1}^Td_k=g_k^Td_k+\alpha_{k+1}d_{k+1}^TAd_k$ 再归纳得到，当A为对称矩阵时 $d T j A d k = 0 (j \neq k)$ $d_j^TAd_k=0(j\neq k)$ 即 $d_j,d_k$ 共轭。
一直走到某个位置 $x_k,s.t.g_k^Td_k=0$ .
$\alpha_k的取值？$
为了方便计算引入 $d_{k+1}=-g_k+\beta_kd_k$
由 $g_k^Td_k=0$ ，并将 $g_k$ 展开，可得 $g T k - 1 d k + α k d T k A d k = 0 (*)$ $g_{k-1}^Td_k+\alpha_kd_k^TAd_k=0~~(*)$ 则 $α k = - g T k - 1 d k d T k A d k = - g T k - 1 ( - g k - 1 + β k - 1 d k - 1 ) d T k A d k = | | g k - 1 | | 2 d T k A d k (* *)$ $\alpha_k={-g_{k-1}^Td_k\over d_k^TAd_k}={-g_{k-1}^T(-g_{k-1}+\beta_{k-1}d_{k-1})\over d_k^TAd_k}={||g_{k-1}||^2\over d_k^TAd_k}~~(**)$ 由 $d_{k+1}^TAd_k=0$ ，并将 $d_{k+1}$ 展开，得 $(- g k + β k d k) T A d k = 0$ $(-g_k+\beta_kd_k)^TAd_k=0$ 则 $β k = g T k A d k d T k A d k = (*) g T k ( α k A d k ) - g T k - 1 d k = (* *) g T k ( α k A d k ) | | g k - 1 | | 2 = (Δ) g T k ( g k - g k - 1 ) | | g k - 1 | | 2 = | | g k | | 2 | | g k - 1 | | 2$ $\beta_k={g_k^TAd_k\over d_k^TAd_k}=^{(*)}{g_k^T(\alpha_kAd_k)\over -g_{k-1}^Td_k}=^{(**)}{g_k^T(\alpha_kAd_k)\over ||g_{k-1}||^2}=^{(\Delta)}{g_k^T(g_k-g_{k-1})\over ||g_{k-1}||^2}={||g_k||^2\over ||g_{k-1}||^2}$