Semantic-aligned Fusion Transformer for One-shot Object Detection（CVPR 2022）阅读笔记

最新推荐文章于 2024-04-20 09:44:07 发布

visualsoul

最新推荐文章于 2024-04-20 09:44:07 发布

阅读量867

点赞数

文章标签：目标检测深度学习人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/visualsoul/article/details/125847363

版权

prerequisite ：Positional encoding:词汇在句子中不同位置的编码，保证：距离相同时编码一直，适应不同长度句子，每个位置独一无二

方法 cos sin

Introduction 不同融合方法的可视化

Reweighting（压缩） correlation（压缩） attention 语义对标的注意力方法（多个尺度）

Problem definition Cbase和Cnovel不重叠，Dbase用于训练中的query和support而Dnovel仅提供测试中的support。因此是one-shot

Framework

VFM 同一个图像中的不同尺度特征 support和query使用的是孪生网络

HFM 将support和query中的进行cross attention和self attention操作。

Tips：Siamese network 衡量输入相似度，pseudo-Siamese network：两边使用到不共享参数的network 分别使用于：衡量两个签名相似度（Siamese）标题正文相关度（pseudo）

衍生 triplet network 三个中的两个同类尽可能近不同类尽可能远

HA：horizonal attention 其中使用了 PMA positional encoding 增强位置可变性

FFN 作用：attention主要是矩阵乘法线性运算，FFN是两个FC层进行非线性变换，LN（layer normalization）可以将数据移动到激活函数作用区域

VA：vertical attention 将上层的小特征上采样作为kv引导下层attention

Limitation

1、因为设计孪生只能做one-shot不能有多个support。如需改进则要使用特征提取和整合。2、需要设置小学习率且长时间等待收敛，0.001，普通的0.02会不稳定。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

visualsoul CSDN认证博客专家 CSDN认证企业博客

码龄6年

3: 原创

106万+: 周排名

63万+: 总排名

2951: 访问

: 等级

83: 积分

3: 粉丝

1: 获赞

9: 评论

10: 收藏

私信

关注

热门文章

最新评论

MATLAB批量给图片加噪声
visualsoul: 谢谢鼓励~
MATLAB批量给图片加噪声
klt6: 牛，程序直接可跑，参数修改也很方便，赞👍！
win11系统自动休眠更改
visualsoul: 当时我有，现在我一看也没有了。。emm可能是版本更新了
win11系统自动休眠更改
visualsoul: 抱歉那我不知道了我是专业版的也许你可能没有这个问题？是不是只要设置不许休眠就好了
win11系统自动休眠更改
cajian3: 家庭版没有 “允许混合睡眠” 和 “在此时间后休眠” 这两个选项

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。