机器学习深度学习复习要点面试题（更新中）

本文链接：https://blog.csdn.net/qq_23225317/article/details/78735408

梯度下降
前向传播和后向传播

前向传播

反向传播
梯度消失和梯度爆炸
Batch Normalization
随机梯度下降和批量梯度下降
用 fminunc 函数对梯度下降算法进行高级优化

除了梯度下降算法以外，还有一些常被用来令代价函数最小的算法，这些算法更加复杂和优越，而且通常不需要人工选择学习率，通常比梯度下降算法要更加快速。这些算法有：共轭梯度（Conjugate Gradient），局部优化法(Broyden fletchergoldfarb shann,BFGS)和有限内存局部优化法(LBFGS) fminunc 是 matlab 和 octave 中都带的一个最小值优化函数，使用时我们需要提供代价函数和每个参数的求导。
RBF1 RBF2
自编码器
欠拟合与过拟合
高斯混合模型是概率密度的万能近似器
非线性激活函数
sigmod 和 tanh
sigmod 和 tanh
Jacobian矩阵和Hessian矩阵
KL散度相对熵它表示2个函数或概率分布的差异性：差异越大则相对熵越大，差异越小则相对熵越小
交叉熵交叉熵损失函数可以衡量p与q的相似性。
softmax
LSTM结构推导 GRU
BPTT
范数及其应用
贝叶斯网络
HMM与CRF

HMM：马尔可夫性质：
它指的是一个随机变量序列按时间先后关系依次排开的时候，第N+1时刻的分布特性，与N时刻以前的随机变量的取值无关。拿天气来打个比方。如果我们假定天气是马尔可夫的，其意思就是我们假设今天的天气仅仅与昨天的天气存在概率上的关联，而与前天及前天以前的天气没有关系。其它如传染病和谣言的传播规律，就是马尔可夫的。
CRF：随机场：
当给每一个位置中按照某种分布随机赋予相空间的一个值之后，其全体就叫做随机场。我们不妨拿种地来打个比方。其中有两个概念：位置（site），相空间（phase space）。“位置”好比是一亩亩农田；“相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼，这就好比给随机场的每个“位置”，赋予相空间里不同的值。所以，俗气点说，随机场就是在哪块地里种什么庄稼的事情。
马尔可夫随机场：
也叫马尔可夫网，拿种地打比方，如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关，与其它地方的庄稼的种类无关，那么这些地里种的庄稼的集合，就是一个马尔可夫随机场。
无向图模型也叫马尔科夫随机场(Markov Random Fields)或马尔科夫网络(Markov Network)，无向图模型有一个简单的独立定义：两个节点集A、B都与给定的第三个节点集C相互条件独立，A、B节点之间的路径都被C中的节点分开。
常见的优化方法：梯度下降法、牛顿法、拟牛顿法、共轭梯度法等
神经网络优化方法：随机梯度下降(SDG)、小批量梯度下降、Momentum、RMSprop、Adam
指数加权平均
矩阵行列式的物理意义
行列式就是矩阵对应的线性变换对空间的拉伸程度的度量，或者说物体经过变换前后的体积比
白化（whitening）
BN层和Dropout为什么有用？
神经网络的权重初始化方法
病态条件特征太过于相似以至于容易混淆（放大误差）

条件数：条件数表征函数相对于输入的微小变化而变化的快慢程度。病态问题一般被认为存在于神经网络训练过程中。病态体现在随机梯度下降会‘‘卡’’ 在某些情况，此时即使很小的更新步长也会增加代价函数。牛顿法在解决带有病态条件的Hessian矩阵的凸优化问题时，是一个非常优秀的工具。
动量的主要目的是解决两个问题：Hessian矩阵的病态条件和随机梯度的方差。
上溢和下溢这两个困难能通过计算 softmax(z) 同时解决，其中 z = x − max i x i （计算的值是不变的）。
鞍点

当 f ′ (x) = 0，导数无法提供往哪个方向移动的信息。f ′ (x) = 0 的点称为临界点（critical point）或驻点（stationary point）。一个局部极小点（local minimum）意味着这个点的 f(x) 小于所有邻近点，因此不可能通过移动无穷小的步长来减小f(x)。一个局部极大点（local maximum）意味着这个点的 f(x) 大于所有邻近点，因此不可能通过移动无穷小的步长来增大 f(x)。有些临界点既不是最小点也不是最大点。这些点被称为鞍点（saddle point）。
Hessian矩阵的条件数

多维情况下，单个点处每个方向上的二阶导数是不同的。Hessian 的条件数衡量这些二阶导数的变化范围。当 Hessian 的条件数很差（很大）时，梯度下降法也会表现得很差。这是因为一个方向上的导数增加得很快，而在另一个方向上增加得很慢。梯度下降不知道导数的这种变化，所以它不知道应该优先探索导数长期为负的方向。病态条件也导致很难选择合适的步长。步长必须足够小，以免冲过最小而向具有较强正曲率的方向上升。这通常意味着步长太小，以致于在其他较小曲率的方向上进展不明显。
约束优化与KKT条件
VC维、shatter和break point
Perceptrons在d维度下的VC Dimension是d+1。
变分自编码器（Variational Auto-Encoder，VAE）
GAN（生成式对抗网络）
高斯分布为什么被广泛应用（需要较少的先验知识）

第一，我们想要建模的很多分布的真实情况是比较接近正态分布的。中心极限定理（central limit theorem）说明很多独立随机变量的和近似服从正态分布。这意味着在实际中，很多复杂系统都可以被成功地建模成正态分布的噪声，即使系统可以被分解成一些更结构化的部分。
第二，在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最大的不确定性。因此，我们可以认为正态分布是对模型加入的先验知识量最少的分布。
最大似然估计、KL散度、交叉熵

最小化KL散度又等价于最小化分布之间的交叉熵
最大后验估计（MAP）、极大似然估计、贝叶斯估计

MAP和极大似然的区别：
MAP允许我们把先验知识加入到估计模型中，这在样本很少的时候是很有用的，因为样本很少的时候我们的观测结果很可能出现偏差，此时先验知识会把估计的结果“拉”向先验，实际的预估结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数，比如beta分布的，我们还可以调节把估计的结果“拉”向先验的幅度，越大，这个顶峰越尖锐。这样的参数，我们叫做预估模型的“超参数”。
梯度消失与爆炸的解决方法

两种情况下梯度消失经常出现，一是在深层网络中，二是采用了不合适的损失函数，比如sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下，下面分别从这两个角度分析梯度消失和爆炸的原因。
CNN架构
LeNet ——–>ALexNet—————>ZFNet( 反卷积网络可视化整个卷积网络 )———–>VGG—>Googlenet（inception[bottleneck层（降低特征图维度减小计算量）]）—–>ResNet(残差网络其实是由多种路径组合的一个网络，直白了说，残差网络其实是很多并行子网络的组合)—————>[DenseNet]
(http://blog.csdn.net/u014380165/article/details/75142664)
EM算法

什么是EM算法？EM是一种解决存在隐含变量优化问题的有效方法。对于给定的训练样本x，样例间独立，我们想找到每个样例隐含的类别z，能使得p(x,z)最大。
混合高斯模型与K-means

混合高斯模型对比K-means可以发现，这里使用了“软”指定，为每个样例分配的类别是有一定的概率的，同时计算量也变大了，每个样例i都要计算属于每一个类别j的概率。与K-means相同的是，结果仍然是局部最优解。对其他参数取不同的初始值进行多次计算不失为一种好方法。
GMM应用：使用混合高斯模型对背景建模

在监控系统中，拍摄背景通常是变化较少的固定场景。通常我们假定没有入侵物体的静态场景具有一些常规特性，可以用一个统计模型描述。GMM就是用高斯模型，而且是多个高斯模型的加权和混合在一起来模拟背景的特性。这样一旦已知这个背景模型，入侵物体就能通过标出场景图像中不符合这一背景模型的部分来检测到。这一过程被称为背景减除（Backgroundsubtraction），我猜OpenCV中各种背景建模方法的基类称作“BackgroundSubtractor”也源于此吧。
极大似然估计

最大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。
Boosting技术：AdaBoost、GBDT、XGBoost
面试题

由来：在学习中，如果已经发现了”弱学习算法”，那么能否将它提升为”强学习算法”？
对于一个学习问题来说（以分类问题为例），给定训练数据集，求一个弱学习算法要比求一个强学习算法要容易的多。Boosting方法就是从弱学习算法出发，反复学习，得到一系列弱分类器，然后组合弱分类器，得到一个强分类器。Boosting方法在学习过程中通过改变训练数据的权值分布，针对不同的数据分布调用弱学习算法得到一系列弱分类器。
机器学习中的指标

召回率 recall 、准确率 precision 、F值
举个栗子：
某池塘有1400条鲤鱼，300只虾，300只鳖。现在以捕鲤鱼为目的。撒一大网，逮着了700条鲤鱼，200只虾，100只鳖。那么，这些指标分别如下：
正确率 = 700 / (700 + 200 + 100) = 70%
召回率 = 700 / 1400 = 50%
F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%