FeatUp: A Model-Agnostic Framework for Features at Any Resolution论文和代码结构解读

论文地址
代码地址

写在前面

FeatUp
FeatUp从任意图像特征中进行上采样,给现有的语义信息中增加空间分辨率。可学习的高分特征可以作为图片的隐式网络或者通用的上采样操作,而这种操作就是一个即插即用的模块,用于改善下游的密集型预测任务。

动机

在图像这类的密集型预测任务中,利用不同的Backbone生成各种高维空间特征,进行分类和预测,这种高度抽象的高维特征往往牺牲了大量的具有有用语义信息的空间分辨率。所以作者是想把这些具有语义信息的空间分辨率在高维特征中进行添加或者重建。

贡献

FeatUp-framework

  • 提出可显著提升模型特征空间分辨率的FeatUp方法,参数化为上采样的前馈网络或者说是一种隐式网络
  • 由CUDA实现的双边联合上采样,允许在大模型中进行上采样
  • FeatUp特征可以作为普通特征的即插即用的替代品,提高在密集型任务中的效果

方法

上采样

Upsampler引入两种可学习的Upsampler,显式的比较简单,直接用

torch.nn.Parameter()

隐式的相对复杂,如图所示,使用了多层全连接网络
Explicit_Implicit

下采样

Downsampler作者使用了两种下采样器,左边是使用简单的可学习模糊核的下采样器,右边是使用了注意力机制的下采样器,这种具有更好的非线性和动态的感受野。
具体操作如下
Downsamplers

损失函数

rec-loss

L r e c = 1 ∣ T ∣ Σ t ∈ T 1 2 s 2 ∣ ∣ f ( t ( x ) ) − σ ↓ ( t ( F h r ) ) ∣ ∣ 2 2 + l o g ( s ) L_{rec} = \frac{1}{|T|} \underset{t \in T}{\Sigma} \frac{1}{2s^2}|| f(t(x)) - \sigma_{\downarrow}(t(F_{hr})) ||^2_2 + log(s) Lrec=T1tTΣ2s21∣∣f(t(x))σ(t(Fhr))22+log(s)
这是多视野重建的损失

mag-loss

L m a g = Σ i , j ( ( ∣ ∣ F h r [ i , j ] ∣ ∣ − ∣ ∣ F h r [ i − 1 , j ] ∣ ∣ ) 2 + ( ∣ ∣ F h r [ i , j ] ∣ ∣ − ∣ ∣ F h r [ i , j − 1 ] ∣ ∣ ) 2 ) L_{mag} = \underset{i,j}{\Sigma}\bigg((||F_{hr}[i, j]|| - ||F_{hr}[i-1,j]||)^2 + (||F_{hr}[i,j]|| - ||F_{hr}[i, j-1]||)^2\bigg) Lmag=i,jΣ((∣∣Fhr[i,j]∣∣∣∣Fhr[i1,j]∣∣)2+(∣∣Fhr[i,j]∣∣∣∣Fhr[i,j1]∣∣)2)
这个损失是用来避免高分特征中产生的噪音的

具体代码结构

这里很细的,仔细看
FeatUp
受到清晰度限制,点击下载无损SVG格式。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值