HOI
文章平均质量分 55
wo42ge
这个作者很懒,什么都没留下…
展开
-
CLIP编码器调用时刚开始正常,然后输出全部变为NaN
2、进入clip.py文件,找到函数load,在return之前加一个.float()转为fp32即可。3、如果找不到文件在哪,就debug,断点打在clip.load()这一行,然后一行一行走就进去了。参考资料:https://github.com/openai/CLIP/issues/144。网上办法不多,找了半天终于看到问题所在,但是没有说在哪里改的,故记录一下。改一下模型精度就正常了,默认的是fp16,改为fp32即可。1、找到你加载clip模型的文件,比如我的是在这。因为他默认的是加载fp16。原创 2024-07-08 22:38:57 · 233 阅读 · 2 评论 -
PVIC:Exploring Predicate Visual Context in Detecting Human-Object Interactions
最近,DETR框架已成为人-物交互(HOI)研究的主要方法。特别是,基于两级变压器的HOI检测器是性能最好、训练效率最高的方法之一。然而,这些通常会将HOI分类限制在缺乏细粒度上下文信息的物体特征上,避免姿势和方向信息,而倾向于关于物体身份和框端的视觉线索。这自然会阻碍对复杂或模糊交互的识别。在这项工作中,我们通过可视化和精心设计的实验来研究这些问题。因此,我们研究了如何最好地通过交叉注意重新引入图像特征。原创 2024-04-29 22:42:18 · 641 阅读 · 0 评论 -
VCOCO数据集评估流程
这种的话,是因为numpy在1.20版本就弃用了np.bool,需要使用bool或者np.bool_替代。首先将以下 main 函数添加到 data/v-coco 中的 vsrl_eval.py 中。首先进入到vcoco中,目录中要有vsrl_eval.py文件,没有的话就去。接下来找到需要生成检测结果的pickle文件,然后按如下方式进行评估。vslr_annot_file:VCOCO 注释的路径。coco_annot_file:Coco 注释的路径。找到vsrl_eval.py,把其中的替换了就行了。原创 2024-04-27 16:52:28 · 332 阅读 · 0 评论 -
模型评估指标以及一些变量含义
与 mAP rare 相对应,指的是在非稀有类别上的平均精度。非稀有类别是指在数据集中出现频率较高的类别。这个指标可以告诉你模型在运行过程中最大的内存需求,通常以字节(bytes)或者更大的单位(如千兆字节、兆字节)来表示。: 通常指的是在稀有类别上的平均精度。稀有类别是指在数据集中出现频率较低的类别。: 可能指的是特定论文(thesis)中提到的平均精度。: 整体平均精度,是所有类别平均精度的平均值,表示模型在所有类别上的综合性能。: 指的是在所有类别上的平均精度,与 “mAP” 的含义相同。原创 2024-04-27 16:18:38 · 189 阅读 · 0 评论 -
Vision mamba调试
如果显示版本和nvidia-smi对上了,那就可以配置多版本cuda,也就是额外下载一个11.6以上的。首先查看nvcc -V版本多少,如果显示找不到命令则是cuda没有装好。如果显示版本和nvidia-smi对不上,那也是没有装好。很正常等几分钟,还卡就断了重新执行。原创 2024-03-22 23:37:31 · 644 阅读 · 0 评论 -
HOICLIP:Efficient Knowledge Transfer for HOI Detection with Vision-Language Models
解释人物交互概念:人与物体交互(HOI)检测旨在定位人与物体对并识别他们的交互,是全面理解视觉场景的核心任务引出相关领域:近年来,它因其在广泛应用中的关键作用而引起了越来越多的兴趣,例如辅助机器人、视觉监控和视频分析当前的领域研究发展:由于端到端对象检测器的发展,最近的研究在交互中定位人对象实例方面取得了显着进展引出现在所面临的挑战:识别人与物体对之间的交互类别的问题仍然特别具有挑战性。传统方法及其局限性:传统策略只是学习多标签分类器,通常需要大规模带注释的数据进行训练。原创 2023-11-23 20:27:03 · 592 阅读 · 1 评论 -
End-to-End Human Object Interaction Detection with HOI Transformer(CVPR2021)
这是CVPR2021年的一篇论文,主要是作者提出了一种端到端的HOI检测方法,基于Transformer结构。作者总结了以前的研究工作以及方法,基本上目前的HOI研究主要有三种:两阶段、一阶段、端到端。如图所示:两阶段方法:先进行目标检测,找到人和物体的框以及类标签,然后再通过使用multi-stream架构来预测人和物体的交互对。由于顺序和分离的两级架构,这些方法复杂度高且效率低。一阶段方法:引入了交互点的概念,同时对交互点以及边界框进行预测,然后再通过算法将交互点和对象对进行匹配。原创 2023-07-13 13:54:25 · 429 阅读 · 1 评论