自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 BiSeNet的高效的多任务图像分割

作者遵循第二种方法,研究了一个可靠的技术解决方案,在 Mask 分类框架内重新思考双流架构。以此为目标,在流行的双流语义分割架构的基础上,作者提出了BiSeNetFormer。它保持了高效的双流设计:空间路径从图像中提取高分辨率低级细节,而上下文路径生成高度语义化的视觉特征。为了执行 Mask 分类,作者采用了一个 Transformer 解码器组件,该组件有效地利用低分辨率上下文路径特征计算一组分割嵌入。这些嵌入随后被用于计算一组由二进制 Mask 及其相应类别概率组成的配对,这些配对构成了分割输出。

2024-05-07 19:46:21 1930

原创 深入了解RMT:突破传统视觉变换器的空间局限

RMT借鉴了自然语言处理(NLP)中最新的保留网络(Retentive Network,RetNet)的设计,将其时间衰减机制扩展到空间领域中。通过引入基于曼哈顿距离的空间衰减矩阵,RMT成功地为自注意力机制注入了明确的空间先验,从而在保持线性复杂度的同时,有效降低了计算负担。在下游任务中,如COCO检测任务和ADE20K语义分割任务上,RMT同样表现优异,充分证明了其强大的功能和实用性。这一突破性的设计不仅提升了模型的性能,也为未来的视觉变换器设计提供了新的思路和方向。

2024-04-15 21:05:57 772

原创 Adaptive FSS论文分析 复现要点 关键介绍 启发思想

先进方面在于融合了多个模型框架,同时增加了PAM模块,冻结了其他模块,仅微调更新PAM模块,作者给定查询图像Iq和支持集{I k s, Mk s} k k=1,编码器首先按照前面的方法提取查询特征Fq和支持特征f。然后,将F, Ms和Fq输入到我们提出的PAM中,通过PEM获得类特定特征F∗s和F∗q。进一步,我们将F∗s和F∗q输入到LAM中以学习新任务的特殊信息,生成了F和Fq。然后,在原始特征f和Fq中注入ff和Fq,用于下游解码器,实现更精确的分割。在微调时,我们只更新PAM的参数。

2024-03-31 14:35:17 1724 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除