复现CVPR2024-Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers记录

前言

由于笔者项目经验欠缺,在本文章代码复现时遇到诸多问题,多数问题在网上查阅并无法第一时间找到原因。并且由于文章和其研究方向较新,网络上复现过程记录几乎没有,故记录复现过程,或许能够帮助到有需求的人,主要供自己翻看。(笔者并不专业,在该领域也并未入门,有问题请指教)

论文

https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Unifying_Top-down_and_Bottom-up_Scanpath_Prediction_Using_Transformers_CVPR_2024_paper.pdf

14511bb4d97440459cbc033ca10952c5.png

代码

cvlab-stonybrook/HAT: CVPR 2024 "Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers" (github.com)

环境搭建

笔者在服务器上搭建环境并实现代码,由于一些错误和原因(尚未解决),项目中的requirements.txt无法有效地使用conda搭建环境,因此直接使用pip安装需要的包。

运行环境:

python == 3.9(3.10以上版本会有问题)

pytorch == 2.0.1

CUDA ==11.7

Cython == 3.0.11

detectron2 == 0.6

numpy == 1.23.5

scikit-learn == 0.21.3 (sklearn多次遇到版本问题)

scipy == 1.10.0

Installation

git clone https://github.com/cvlab-stonybrook/HAT.git
cd HAT

Install Detectron2

git clone https://github.com/facebookresearch/detectron2.git
python -m pip install -e detectron2

Install MSDeformableAttn:

cd ./hat/pixel_decoder/ops
sh make.sh

笔者按给出的命令初始化并无报错,但后续出现了一些问题(不明原因报错),可以先尝试进行下面的步骤,若后续有问题再考虑下面的备选步骤,直接导入该包的源项目并初始化。

git clone https://github.com/fundamentalvision/deformable-detr

导入项目后,进入项目,按照README.md文件进行初始化

pip install -r requirements.txt
cd ./models/ops
sh ./make.sh

Download pretrained model weights (ResNet-50 and Deformable Transformer) with the following python code

 if not os.path.exists("./pretrained_models/"):
     os.mkdir('./pretrained_models')

 print('downloading pretrained model weights...')
 url = f"http://vision.cs.stonybrook.edu/~cvlab_download/HAT/pretrained_models/M2F_R50_MSDeformAttnPixelDecoder.pkl"
 wget.download(url, 'pretrained_models/')
 url = f"http://vision.cs.stonybrook.edu/~cvlab_download/HAT/pretrained_models/M2F_R50.pkl"
 wget.download(url, 'pretrained_models/')

建立一个python文件,import必要的包,将上述

### 关于CVPR 2024会议中的EMCAD主题 CVPR计算机视觉和模式识别会议)主要关注计算机视觉及其应用领域,而EMCAD(电磁兼容性和天线设计)通常属于电气工程范畴。因此,在CVPR会议上专门针对EMCAD的主题较少见[^1]。 然而,随着技术的发展,交叉学科的研究逐渐增多。某些涉及图像处理、传感器融合以及无线通信的技术可能间接关联到EMCAD方面的工作。例如: - **多模态感知**:利用不同类型的传感器获取环境信息,其中一些传感器可能会涉及到射频信号的接收与发射,进而牵涉到电磁兼容性问题。 - **自动驾驶车辆**:这类研究不仅依赖摄像头等光学设备,还需要雷达和其他基于无线电波的探测手段,这些都离不开良好的电磁兼容设计来确保系统的稳定运行。 对于希望了解更具体的EMCAD相关内容,建议查阅IEEE Transactions on Electromagnetic Compatibility 或者Antennas and Propagation Society International Symposium (APSURSI)等相关专业期刊和会议论文集,因为这些都是专注于电磁学及天线设计的专业出版物[^3]。 如果确实存在对CVPR中有关联性的特定话题感兴趣的情况,则可以考虑探索如下方向: - 结合机器学习算法优化天线阵列的设计参数; - 利用电磁仿真数据训练神经网络模型预测干扰源位置或强度分布; ```python # 示例代码展示如何通过Python调用API查询学术文献数据库 import requests def search_papers(keyword, year=2024): url = f"https://api.example.com/paper?query={keyword}&year={year}" response = requests.get(url) return response.json() papers = search_papers('EMCAD CVPR') print(papers) ```
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值