计算机视觉（五）500强AI专家教你面试通关-CSDN博客

本文链接：https://blog.csdn.net/qq_21154829/article/details/117189383

深度学习模型机理
（1）神经元的机理
z=wTx+b
a=σ(z)

输入数据维度为4，第一层神经元为5个，则参数矩阵w的维度为54的矩阵，第一个神经元z1 = w11x1+w12x2+w13x3+w14x4。
第n层神经元的神经元个数为Mn，则第n层向前的参数矩阵的维度是MnMn-1，向后的参数矩阵的维度是Mn+1*Mn

（2）激活函数的优缺点
sigmoid：优点：连续平滑，便于求导。缺点：1、Sigmoid函数的输出值恒大于0，这会导致模型训练的收敛速度变慢。2、梯度消失问题。由于Sigmoid的导数总是小于1，所以当层数多了之后，会使回传的梯度越来越小，导致梯度消失问题。而且在前向传播的过程中，通过观察Sigmoid的函数图像，当 x 的值大于2 或者小于-2时，Sigmoid函数的输出趋于平滑，会使权重和偏置更新幅度非常小，导致学习缓慢甚至停滞。3、计算量大。由于采用了幂计算。中间层不建议使用sigmoid

tanh函数：优点：解决了Sigmoid函数的输出值恒大于0的问题，收敛速度更快。缺点：但是缺点依然是梯度消失，计算消耗大。

relu函数：x大于0时，其导数为1，不存在梯度消失问题。计算导数速度快，只需要判断x是大于0还是小于0。收敛速度快。缺点：均值不为0，指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。因为当x 小于等于0时输出恒为0，如果某个神经元的输出总是满足小于等于0 的话，那么它将无法进入计算。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化，这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大，不幸使网络进入这种状态。解决方法是可以采用 MSRA 初始化方法，以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

扎实的理论基础3
Inception:使用多种维度的卷积核
11，33，5*5的卷积核，然后对于卷积后的图片进行padding操作，使她们达到同一纬度，然后堆叠在一起，作为新的输入层。

11卷积核的作用：1、升/降维：mn3的使用1个11的卷积核卷积后得到mn1的输出。2、实现跨通道的交互和信息整合。3、在保持特征图尺寸不变的前提下，大幅增加非线性特性。