1.偏置项
可以当做一个阈值,对于ReLU激活,只有∑Wi*Xi>-b,才激活
2.激活函数
①引入非线性因素
②可以通过线性映射转换特征空间,更好的分类
3.非线性激活函数
线性函数的组合还是线性函数,无法用非线性逼近任意函数
4.通用近似定理
多层神经网络能够以任意精度逼近任意预定连续函数
5.神经网络的宽度与深度
通常,网络层数越多,抽象能力越强
6.batch size
①过小:训练效率低,相当于随机梯度下降,模型效果不好
②过大:易收敛到局部最优点,内存负担大
7.归一化
①BN:沿通道维度归一化(B,1,H,W)
②层次归一化LN:沿batch方向(1,C,H,W)
③实例归一化IN:对每个(1,1,H,W)归一化
8.学习率调整策略
分段常数衰减、指数衰减、自然指数衰减、多项式衰减、余弦衰减
9.特征的层次
边缘特征、局部特征、全局特征
10.1x1卷积的作用
①信息的跨通道融合
②改变通道数
11.卷积核大小
通常堆叠多个小卷积核比单个大卷积核有效,但在需要浅层大感受野信息时大卷积核更好
12.BN层与ReLU顺序
BN可以防止输出全部被ReLU抑制,BN可以使一组全负的数变的有正有负,防止梯度全为0,梯度消失
13.为什么反向传播不用二阶梯度?
①计算量大,训练慢
②深层模型对参数的精度要求不高,一阶优化可以提升泛化能力
③稳定性,二阶梯度更精确,对数据更敏感