Semantic-aligned Fusion Transformer for One-shot Object Detection(CVPR 2022)阅读笔记

prerequisite :Positional encoding:词汇在句子中不同位置的编码,保证:距离相同时编码一直,适应不同长度句子,每个位置独一无二

 

 方法 cos sin

 

Introduction 不同融合方法的可视化

Reweighting(压缩)  correlation(压缩) attention  语义对标的注意力方法(多个尺度)

Problem definition  Cbase和Cnovel不重叠,Dbase用于训练中的query和support而Dnovel仅提供测试中的support。因此是one-shot

Framework 

VFM 同一个图像中的不同尺度特征 support和query使用的是孪生网络

HFM 将support和query中的进行cross attention和self attention操作。

Tips:Siamese network 衡量输入相似度,pseudo-Siamese network:两边使用到不共享参数的network 分别使用于:衡量两个签名相似度(Siamese)标题正文相关度(pseudo)

衍生 triplet network 三个中的两个同类尽可能近不同类尽可能远

HA:horizonal attention  其中使用了 PMA positional encoding  增强位置可变性

FFN 作用:attention主要是矩阵乘法线性运算,FFN是两个FC层进行非线性变换,LN(layer normalization)可以将数据移动到激活函数作用区域

 

VA:vertical attention 将上层的小特征上采样作为kv引导下层attention

Limitation

1、因为设计孪生只能做one-shot不能有多个support。如需改进则要使用特征提取和整合。2、需要设置小学习率且长时间等待收敛,0.001,普通的0.02会不稳定。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Fusionlane是一种多传感器融合技术,用于车道标志语义分割。该技术通过将来自多个传感器的数据进行融合,提高了车道标志语义分割的准确性和稳定性。 传统的车道标志语义分割方法通常只使用一种传感器的数据进行分析,例如使用单个摄像头捕获的图像。然而,由于不同传感器的特点和性能各异,使用多个传感器的数据进行融合可以提供更全面和准确的信息。 Fusionlane通过整合来自多种传感器的数据,如摄像头、激光雷达、GPS等,可以综合利用各传感器的优点,弥补彼此的不足。例如,摄像头可以提供高分辨率的图像信息,激光雷达可以提供精确的距离和位置信息,GPS可以提供精确的车辆位置信息。融合这些数据可以提高车道标志语义分割的精度和鲁棒性。 Fusionlane算法首先对来自各传感器的数据进行预处理和校正,确保其在同一坐标系统和分辨率下进行比较。然后,通过使用深度学习等技术,将多传感器的数据进行融合和分析,得出车道标志的准确位置和类型。 与传统的单传感器方法相比,Fusionlane的优势在于能够提供更精确的车道标志语义分割结果。通过利用多传感器的数据,可以更有效地抑制光照变化、遮挡和噪声等问题,提高分割算法的鲁棒性。此外,融合多传感器的数据还可以提供更全面的环境感知,为自动驾驶等应用提供更准确和可靠的信息。 总之,Fusionlane是一种多传感器融合技术,用于车道标志语义分割。通过融合来自多种传感器的数据,可以提高分割的准确性和稳定性,为智能驾驶等领域的应用提供更可靠和高效的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值