一张图片理解BiFPN原理

巢子

已于 2024-09-21 09:55:31 修改

阅读量4.1k

点赞数 26

分类专栏： AI模型文章标签：目标检测计算机视觉人工智能神经网络视觉检测

于 2024-09-19 18:44:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49878324/article/details/142365845

版权

AI模型专栏收录该内容

1 篇文章

订阅专栏

一张图片理解BiFPN原理

直接上图

BiFPN原理

Notes:

P3、P4、P5、P6、P7表示backbone网络的输出层，每个输出层都有对应的输出feature（包含channel数，feature的大小等信息），例如P3的输出feature大小为输入图片分辨率/ $2^3$ , P4的输出feature大小为输入图片分辨率/ $2^4$ ,依次类推，P7的输出feature大小为输入图片分辨率/ $2^7$ ，分别为图中的P3_in, P4_in, … , P7_in;
不带颜色的圆圈表示feature，带颜色的圆圈表示算子。有线连接的都表示权重w，向上向下连接都有resize操作，表示要么是upsampling要么是downsampling。

基本原理

BiFPN全称：bi-directional feature pyramid network。意思是，双向特征金字塔网络。
主要包含三大特点：

多尺度特征融合；

可参考FPN网络的原理理解

跨尺度连接；

可参考PANet网络原理理解

加权特征融合；

是BiFPN网络的创新之处，考虑到不同特征对输出特征的贡献大小不同，也就是重要性不同而引出的。

FPN_PANet_BIFPN

公式理解

图中已经给出了各输出层特征的加权计算公式，
下面是更加全面的公式帮助理解。
$P7\_out =Conv(\frac{P7\_in*W71+Resize(P6\_out)*W72}{W71+W72+\epsilon})$

$P6\_out =Conv(\frac{P6\_in*W63+P6\_td*W64+Resize(P5\_out)*W65}{W63+W64+W65+\epsilon})$

$P5\_out =Conv(\frac{P5\_in*W53+P5\_td*W54+Resize(P4\_out)*W55}{W53+W54+W55+\epsilon})$

$P4\_out =Conv(\frac{P4\_in*W43+P4\_td*W44+Resize(P3\_out)*W45}{W43+W44+W45+\epsilon})$

$P3\_out =Conv(\frac{P3\_in*W31+Resize(P4\_td)*W32}{W31+W32+\epsilon})$

参考论文：EfficientDet: Scalable and Efficient Object Detection
链接：https://arxiv.org/pdf/1911.09070v2

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。