指针要初始化。且 指针要用 ->而不能用“ . ”。
faster rcnn
L1(绝对值)和L2()
L1正则:权值向量中w的绝对值之和。可以产生稀疏矩阵,特征选择。很多元素为0。一定程度上可以防止过拟合。
L2正则:权值向量中w的平方和。可以防止过拟合。倾向于让权值尽可能小。
为啥用smoothL1 loss,L1loss的导数是常数,可以防止数据中的离群点(噪声)产生的loss过大导致的梯度爆炸。原始L1倒数在原点处不连续,于是在原点附近用二次函数代替。
常用于回归问题,Huber loose,平方损失,绝对值
常用语分类问题:0-1损失,logistic loss(逻辑回归),hinge loss(SVM),指数损失(adboost)对异常点敏感,
BN(批标准化,控制每个隐藏层的输入分布)
relu-bn-conv随着网络的加深,每层的输入分布逐渐发生偏移,之所以变慢,1是整体分布逐渐往非线性函数的取值两端移动,导致了梯度消失,BN通过一定的规范化手段,让输入变为均值为0,方差为1的标准正太分布。梯度就变大,就不会消失,收敛速度快。
1.可以使用大的LR
2.不用理会drop out、L2正则
3.不用理会LRN,
lrn:(局部响应归一化)alexnet tf.nn.lrn
一般在激活pooling后用,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的繁华能力。通道层面的,BN是数据层面的