硕士开题材料

1.一些概念

跨模态行人重识别研究同一身份行人的可见光图像和红外图像的匹配检索问题。由于相机的波长范围、光照、场景等成像因素不一致,跨模态行人重识别面临较大的跨模态差异和类内变化的挑战。因此,本文提出基于语义耦合和身份一致性的跨模态行人重识别方法。在语义层面,通过双向地耦合不同模态的语义特征,实现不同模态间语义交互融合,有效缓解跨模态差异;在行人身份层面,通过优化跨模态三元组损失和身份损失,实现类内身份信息一致性,有效缓解类内变化问题。实验结果表明,本文所提算法能够有效提升跨模态行人重识别精度,与基线方法相比,Top-1和mAP指标精度提升10%以上。

2.non_local
non_local模块关注于长距离建模关系。一系列应用non-local模块或者各种变体(CCNet、efficient attention、A2-Nets等)工作的模式是,CNN整体上已经非常好了,但是缺乏一些长距建模的能力,所以我们在里面稀疏地插入一些注意力模块,帮助CNN做这件事,而其他部分还是由CNN负责。

从工作的定位来讲,二者还是有很大差别的。VIT是整个框架,nonlocal只是一个可以插入任何深度网络的模块。VIT的主要创新点在于数据输入阶段的分patch,然后将每个patch经过线性映射与位置编码后通过transformer,其亮点在于利用分patch操作将图像问题转化为序列问题,完全脱离了CNN结构,可以认为是一个和CNN并列的工作。而nonlocal并没有跳出CNN的框架,只是在CNN的框架中利用self attention的思想进行一定处理的一个模块,该模块可以插入到常见的网络结构中去,比如resnet等等。所以二者最大的不同在于数据的初始处理方式上,vit是将图像转化成了序列建模,而nonlocal的对象仍然是图像。
在这里插入图片描述

2.两个数据集
在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值