Theano,caffe 中 第一维度是通道维,代表颜色通道数;后面两个是高和宽。 "“channels first”
Tensorflow 中 把通道维放在了最后,即通道维最后。 ““channels last””
Keras 中 “channels_last” 对应原本的 “tf”,“channels_first” 对应原本的 “th”
函数式模型(Functional Model):
Sequential(序贯模型),单输入单输出,层之间只有相邻关系,没有跨层连接。
Graph(图模型),支持多输入多输出,层之间有连接关系(被删除)
functional modle API(函数式模型) 强调Sequential 是特殊情况,利用了“函数式编程”的风格。
批数据(batch):
Batch Gradient Descent(批梯度下降):函数计算每个参数的梯度,然后更新梯度。所有样本都看一遍,计算量开销大,计算速度慢
Stochastic Gradient Descent(随机梯度下降):没处理一个数据就计算损失函数,然后更新梯度,这个方法速度较快,但收敛性不好,在最优点附件抖动。
Mini-batch Gradient Decent:两者的这种办法,把数据分成若干份,按批来更新参数。batch尺寸越大,训练表现月接近Batch Gradient Descent(批梯度下降);batch尺寸越小,训练时表现越想Stochastic Gradient Descent(随机梯度下降),训练抖动越明显
注:Keras中的SGD 是基于Mini-batch,并且 Mini-batch 逐渐成为训练时的标配。
epochs:指的是训练过程中整个数据集将被循环训练多少次
交叉熵损失函数:
L=−[ylog y^+(1−y)log (1−y^)],表征真实样本标签和预测概率之间的差值
神经元:其实是一个数学模型:神经元在我看来其实是 一个 输入值 + 计算方式 + 输出值 。这样一个数学表达式。一系列的神经元 连接在一起就组成了神经网络。
假设 输入1=a1,输入2=a2,输入3=a3; 权值1=w1,权值2=w2,权值3=w3;输出=z。 z=g(a1w1+a2w2+a3*w3)。其实函数g()又叫 激活函数