线性代数
基本变量:标量、向量、矩阵、张量
基本运算:乘法、加法、逆运算;线性变换的几何意义
范数
特征分解:$A=V*diag(\lambda)*V^{-1}$
奇异值分解:$A=Q*diag(\Sigma)*V$
伪逆:$A^+=V^T*diag(\Sigma^{-1})*Q^T$
迹运算:$tr(A)=\sum_{i}^{ }A_{ii}$;$tr(ABC)=tr(BCA)=tr(CAB)$
主成分分析:线性变换的残差最小化,可用特征分解求得
$$D^*=\arg\min_D\left \| X-DD^TX\right \|_F^2=\arg\max_Dtr(D^TX^TXD)\;s.t.\;D^TD=I_l$$
数值计算
截断与舍入误差:级数截断、上溢与下溢
病态条件:特征值差别过大、矩阵求逆对输入误差很敏感
无约束优化:$\arg\,\min_x f(x)$
- 梯度下降:$\Delta x=-\epsilon \bigtriangledown f(x)$
- 共轭梯度:考虑了已搜索的方向,与已搜索的子空间共轭$p_nAp_i=0,i=0,...,n-1$,$p_n$为下一个搜索方向。
- 牛顿法:利用hessian矩阵求步长,适合凸优化问题。
有约束优化:$\arg\,\min_x f(x)$ s.t. $g(x)\leqslant 0$
- 广义拉格朗日函数:$L(x,\lambda)=f(x)+\lambda*g(x)$
- 转换为无约束优化:$\arg\,\min_x \max_{\lambda>=0} f(x,\lambda)$
- 互补松弛性:$\lambda\bigodot g(x)=0$
概率与信息论
基本概念
- 随机变量、概率分布、概率密度
- 联合(多元变量)、条件、边缘概率
- 独立性与零协方差
贝叶斯网络
- 链式法则、根据独立性和链式法则,把联合分布分解成条件概率的乘积
- 每个条件概率对应到一组边,形成一个网络
期望、方差和协方差
- 矩、中位数、众数
常用概率分布
- 高斯、二次、多项式、指数和 Laplace、Dirac 和经验分布、混合分布
常用函数
- logistic: $\sigma(x)=(1+e^{-x})^{-1}$
- softplus: $\zeta(x)=log(1+e^x)$,$\log \sigma(x)=-\zeta(-x)$
统计理论
- 点估计:$\hat{\theta}_m=g(...,x^{(m)})$。偏差与方差衡量估计量的两个不同误差来源。
- 一致性:$\lim_{m\to\infty}P(|\hat{\theta}_m-\theta|>\epsilon)=0$
- 最大似然估计ML:$\theta_{ML}=\arg\max_\theta P_{model}(X;\theta)$
- 最大后验概率MAP:$\theta_{MAP}=\arg\max_\theta p(x|\theta)=\arg\max_\theta [\log p(\theta|x)+\log p(\theta)]$
信息论
- 概率分布P的香农熵:$H(X)=E_{X\sim P}[I(X)]=-E_{X\sim P}[\log P(x)]$
- 条件熵:$H(Y|X) = -\sum_{x,y}P(x,y) \log \frac {P(x,y)} {P(x)}$
- 联合熵:$H(X,Y) = -\sum_{x,y}P(x,y) \log {P(x,y)} = H(X) + H(Y|X)$
- 互信息:$I(X;Y)=\sum_{x,y} P(x,y) \log \frac {P(x,y)}{P(x)P(y)}=H(X)-H(X|Y)=H(Y)-H(Y|X)$
- KLD散度:$D_{KL}(P||Q)=E_{X\sim P}[\log \frac{P(x)}{Q(x)}]$
- 交叉熵:$H(P,Q)=E_{X\sim P}[\log Q(x)]=H(P)+D_{KL}(P||Q)$
概率图模型
- 有向图:静态贝叶斯、动态贝叶斯(隐马尔可夫模型)
- 无向图:马尔可夫网络(条件随机场、玻尔兹曼机)
机器学习
容量、过拟合与欠拟合、超参数与验证集
有监督与无监督学习
随机梯度下降
参考文献
- 张帼奋,概率论、数理统计和随机过程,浙江大学出版社,2011
- 海金,神经网络与机器学习,机械工业出版社,2009-3
- Deep learning, www.deeplearning.net
- 俞栋、邓力,解析深度学习:语言识别实践,电子工业出版社,2016.7