计算机视觉(五)500强AI专家教你面试通关

深度学习模型机理
(1)神经元的机理
z=wTx+b
a=σ(z)

输入数据维度为4,第一层神经元为5个,则参数矩阵w的维度为54的矩阵,第一个神经元z1 = w11x1+w12x2+w13x3+w14x4。
第n层神经元的神经元个数为Mn,则第n层向前的参数矩阵的维度是Mn
Mn-1,向后的参数矩阵的维度是Mn+1*Mn

(2)激活函数的优缺点
sigmoid:优点:连续平滑,便于求导。缺点:1、Sigmoid函数的输出值恒大于0,这会导致模型训练的收敛速度变慢。2、梯度消失问题。 由于Sigmoid的导数总是小于1,所以当层数多了之后,会使回传的梯度越来越小,导致梯度消失问题。而且在前向传播的过程中,通过观察Sigmoid的函数图像,当 x 的值大于2 或者小于-2时,Sigmoid函数的输出趋于平滑,会使权重和偏置更新幅度非常小,导致学习缓慢甚至停滞。3、计算量大。由于采用了幂计算。中间层不建议使用sigmoid

tanh函数:优点:解决了Sigmoid函数的输出值恒大于0的问题,收敛速度更快。缺点:但是缺点依然是梯度消失,计算消耗大。

relu函数:x大于0时,其导数为1,不存在梯度消失问题。计算导数速度快,只需要判断x是大于0还是小于0。收敛速度快。缺点:均值不为0,指的是某些神经元可能永远不会被激活,导致相应的参数永远不能被更新。因为当x 小于等于0时输出恒为0,如果某个神经元的输出总是满足小于等于0 的话,那么它将无法进入计算。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化,这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大,不幸使网络进入这种状态。解决方法是可以采用 MSRA 初始化方法,以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

扎实的理论基础3
Inception:使用多种维度的卷积核
11,33,5*5的卷积核,然后对于卷积后的图片进行padding操作,使她们达到同一纬度,然后堆叠在一起,作为新的输入层。

11卷积核的作用:1、升/降维:mn3的使用1个11的卷积核卷积后得到mn1的输出。2、实现跨通道的交互和信息整合。3、在保持特征图尺寸不变的前提下,大幅增加非线性特性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值