Our system divides the input image into an S x S grid.If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object.
https://www.bilibili.com/video/BV1FT4y1E74V?p=1
yolov1 没有anchor,每个格子只能检测单个目标
从v2开始引入anchor,支持每个格子检测多个目标,比如行人、汽车的中心点落在同一个格子里
http://www.ai-start.com/dl2017/html/lesson1-week3.html#header-n40
所以从这里我们也可以了解到,为什么之前我们对单个样本的计算要写成 这种形式,因为当有不同的训练样本时,将它们堆到矩阵的各列中,那么它们的输出也就会相应的堆叠到矩阵 的各列中。现在我们就可以直接计算矩阵 加上,因为列向量 和矩阵 的列向量有着相同的尺寸,而Python的广播机制对于这种矩阵与向量直接相加的处理方式是,将向量与矩阵的每一列相加。 所以这一节只是说明了为什么公式 是前向传播的第一步计算的正确向量化实现,但事实证明,类似的分析可以发现,前向传播的其它步也可以使用非常相似的逻辑,即如果将输入按列向量横向堆叠进矩阵,那么通过公式计算之后,也能得到成列堆叠的输出。
结果表明,如果在隐藏层上使用函数 公式3.20: 效果总是优于sigmoid函数。因为函数值域在-1和+1的激活函数,其均值是更接近零均值的。在训练一个算法模型时,如果使用tanh函数代替sigmoid函数中心化数据,使得数据的平均值更接近0而不是0.5.
第一,在
的区间变动很大的情况下,激活函数的导数或者激活函数的斜率都会远大于0,在程序实现就是一个if-else语句,而sigmoid函数需要进行浮点四则运算,在实践中,使用ReLu激活函数神经网络通常会比使用sigmoid或者tanh激活函数学习的更快。
第二,sigmoid和tanh函数的导数在正负饱和区的梯度都会接近于0,这会造成梯度弥散,而Relu和Leaky ReLu函数大于0部分都为常数,不会产生梯度弥散现象。(同时应该注意到的是,Relu进入负半区的时候,梯度为0,神经元此时不会训练,产生所谓的稀疏性,而Leaky ReLu不会有这问题)
总而言之,不能在隐藏层用线性激活函数,可以用ReLU或者tanh或者leaky ReLU或者其他的非线性激活函数,唯一可以用线性激活函数的通常就是输出层;除了这种情况,会在隐层用线性函数的,除了一些特殊情况,比如与压缩有关的,那方面在这里将不深入讨论。在这之外,在隐层使用线性激活函数非常少见。因为房价都是非负数,所以我们也可以在输出层使用ReLU函数这样你的都大于等于0。
symmetry breaking problem
3.9 神经网络的梯度下降(Gradient descent for neural networks)
当它们在非常不同的取值范围内,如其中一个从1到1000,另一个从0到1,这对优化算法非常不利。但是仅将它们设置为均化零值,假设方差为1,就像上一张幻灯片里设定的那样,确保所有特征都在相似范围内,通常可以帮助学习算法运行得更快。