fast-r-cnn论文中个为什么使用smooth_L1 (x),smooth_l1是什么?

先把论文中这部分描述摘抄过来,如下图所示:

 

假设我们不适用smooth_L1,考虑L2函数

 

其梯度为

那么会出现一个原文描述的问题,when the regression targets are unbounded,既x很大的时候,会发生梯度爆炸,再考虑L1函数

此时会出现另外一个问题,当x变化很小的时候,梯度依旧很大,此时函数很有可能无法收敛(除非你控制学习率降低的更多,但是这样手工智能显然有点蠢。)

既然L2和L1都有缺点,那么我们各取其优点,结合起来会怎么样呢?

看smooth_L1表达式

 

其梯度

 

刚好回避了之前的缺点,既当x过大的时候,梯度不会爆炸,x很小的时候,也可以拥有很小的梯度(不用担心梯度过小,那时候函数已经收敛了)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值