DL:深度学习(deep learning),整体上是一个layer-wise的训练机制
BP:反向传播算法(back propagation),采用迭代的算法来训练整个网络,随机设定初值,计算当前网络的输出,然后根据当前输出和label之间的差去改变前面各层的参数,直到收敛(整体是一个梯度下降法),缺点:对于一个deep network(7层以上),残差传播到最前面的层已经变得太小,出现所谓的gradient diffusion(梯度扩散)
GD:梯度扩散(gradient diffusion),个人理解没有办法找到极小值,只会出现局部极小值
SL:浅层学习(Shallow Learning)
SC:稀疏连接(Sparse Connectivity)
SW:权值共享(Shared Weights)
Sigmoid:激活函数,影响函数核比较小
receptive field: 感受野
stride:步幅
loss function:损失函数
cross entropy:交叉熵
zero-padding:补0的数量
bias:偏置
activation function:激活函数
from back propagation: 前向传播
Cross Entroy:交叉熵,主要用于度量两个概率分布间的差异性信息,语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量,交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码
SDAE:Stacked Denoising Autoencoders,迭代降噪自编码器,目前主要用于数字识别,降噪效果比较好
pool:池化,特征矩阵的边长=(input_n - 卷积滤波器_n)/步长 + 1
梯度下降法:梯度方向表示函数增长速度最快的方向,那么他的相反方向就是函数减少速度最快的方向。对于机器学习模型优化的问题,当我们需要求解最小值的时候,朝着梯度下降的方向走,就能找到最优值。
隐含层:其实就是CNN卷积中除了开始input层和output层之外的中间层
全联通网络 Full Connected Networks
稀疏编码 Sparse Autoencoder
前向输送 Feedforward
反向传播 Backpropagation
部分联通网络 Locally Connected Networks
连接区域 Contiguous Groups
视觉皮层 Visual Cortex
卷积 Convolution
固有特征 Stationary
池化 Pool