格灵深瞳面试--我和Yoshua Bengio的距离_格灵深瞳面试几轮-CSDN博客

本文链接：https://blog.csdn.net/coder_oyang/article/details/47980929

今天接到格灵的电面，问了很多，七七八八的面了感觉将近一个小时，后来翻看通话记录57分钟，我居然撑了这么长时间，临到最后，面试官告诉我他是张赛铮(Saizheng Zhang)蒙特利尔的博士，老板是Bengio .. 我当时就惊呆了，没想到，面我的居然是大牛！更没想到我距离神牛如此之近，现整理下面试情况

1. 你熟悉CNN，那么你说说CNN有什么特别

第一个，卷积，(这样做有什么好处)，做卷积的好处有两个，1. parameters share. 保证网络训练以及运行的效率。2. 除去feature detctor中重复的feature，面试官当时提到了overfitting的问题。这块不知道，需要考证下。

第二个，pooling，保证位移不变性，pooling一般有两种方式，1. average pooling，相当于对图像做的一个差值运行，其实也相当于做的一个卷积运算，2.max pooling，对细微差别具有鲁棒性，比如说有一个最大值在图像的左上角，另一个最大值在图像的右下角，那么经过max-pooling之后，得到的就是这两个max，省略了图像的细微结构，我当时提了一个问题：如果某一些任务需要一些细微差别那CNN似乎不好用，他的解释是，比如说人脸识别任务中，对人脸的识别需要我们保留细微的特征，所以我们可以适当调节卷积层的feature map，因为feature map会提取到不同的特征，这样通过feature map的缓解了pooling的影响，然后他又举了个例，比如说我们在大多数识别任务中，比如物体识别，我们仅仅要求识别物体，所以不会在意物体的细节信息，所以从这个角度来说CNN提取的特征已经够我们使用了，后来在与老师交流的过程中，老师提到一个观点，pooling其实不是非做不可的，他只是降低了数据的维度，同时pooling也是一种convolution，average pooling 就是一种线性convolution，max-pooling 就相当于一种非线性的convolution。

2.说说RBM的原理，中间提了提CRF（条件随机场）

条件随机场这块我真的没有涉猎，我只是知道他是用于文本标记的，我说到了Hinton 2006年的那篇经典文章，说我不知道那个能量公式的来源，只知道是量子热力学演变过来的，他根据这个能量公式得到了结点的两个分布，边缘分布，以及条件分布，通过网络表示的吉布斯分布来拟合图像的真实分布，通过求解二者之间的 KL 距离，通过极大似然估计来求解。面试官说基本上所有图模型都是这样的套路，首先假设一个分布，然后再通过这个分布去拟合真实分布

3. RBM能写出他的边缘分布吗？

不能，因为他的能量模型的函数，是根据e的指数级别，所以求解分布函数，RBM是一个二值网络，任何一个结点都有两个状态，所以这是一个指数级别的运算量，所以不能写出他的边缘分布；从能量角度理解，模型是基于能量模型，要求概率，只有等待模型达到稳定状态，但是达到稳定状态是一个漫长而缓慢的过程，基本上是达不到这个程度的，所以Hinton才想到了用CD算法去近似，其实CD还算不上一种抽样逼近，只是他这样做的效果确实不错，所以大家比较接受

4. ReLu你了解多少，为什么好用？

我没用过这个函数，但是我知道，就是 x大于0的时候 f(x) = x; x小于0的时候 f(x) = 0; 用这样的函数，我认识是在误差反向传播的时候好用，因为他的导数要么是0，要么是1，都是一个常数，不会像sigmoid函数，随着网络层越接近输入层，其导数越趋近于0，对接近输入层的梯度纠正越来越小，可能导致接近输入层的权值不变，这就是梯度弥散。ReLu不会出现这样的情况。

5. 中间还问了些我做的东西