![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HOI
文章平均质量分 88
HOI相关论文阅读笔记
xingaoli
这个作者很懒,什么都没留下…
展开
-
Cascaded Human-Object Interaction Recognition论文阅读笔记
笔记现有的方法大都采用single-stage的推理线,考虑到任务的复杂性,作者提出了一种采用级联结构,多分支,从粗糙到细致的HOI理解。如图1,作者的模型包含了一个实例定位网络和一个交互识别网络。这两个网络都以级联的形式工作,通过实例定位网络,一步一步的增强选择的实例,proposal的质量提高,对于接下来的相关表示也是非常有用的。而且也可以实现更好的动作预测。如图2可以看出两种模式的区别,a表示的是single stage方法,b是作者提出的级联结构,这种结构不仅可以解决HOI检测的问题,还可原创 2021-04-15 16:35:11 · 784 阅读 · 0 评论 -
Polysemy Deciphering Network for Human-Object Interaction Detection论文阅读笔记
笔记这篇文章作者提出现有的模型没有考虑一词多义的情况,即认为同一个动词的视觉特征差不多,然而实际情况下同一个动词的视觉特征可能会有特别大的变化,本文作者基于此提出了一系列策略和PD-Net模型,来克服这种现象。图2是将同一个图片的视觉特征提取出来之后,本来是做多标签分类任务,但是这里作者将其转化为多个二分类任务,而且还加入了language特征。图3就是整个网络的概述,给定一个image,先通过faster-rcnn提取proposal,每一个human和object两两配对,作为动词分类的候选原创 2021-04-09 17:46:13 · 415 阅读 · 0 评论 -
DRG: Dual Relation Graph for Human-Object Interaction Detection阅读笔记
笔记这篇文章作者提出的模型仍然是利用了图结构的一种模型,和之前的图结构的区别在于这篇文章中作者提出的模型并不是dense的,他将原来的图分成了两个子图。并且在特征编码的时候也加入了language方面的特征。注意这篇文章的标题DRG只是本文提出的整个模型中的一个模块。如图2可以看到,现有的方法要么像b一样仅仅依赖于预测每一个HO对,从而忽略了丰富的上下文细节,要么就是比较dense的连接图。dense的问题在于会使得学习的推理的难度比较大。作者提出的module利用两个稀疏的subgraph,即利用原创 2021-04-09 11:13:00 · 550 阅读 · 0 评论 -
Contextual Heterogeneous Graph Network for Human-Object Interaction Detection论文阅读笔记
前言论文地址笔记这篇论文很像之前的GPNN,也是将HOI描述成图,利用图的结构来构建网络。但是这篇文章指出,前边的GPNN及其他类似的网络,都将human和object当作一样的节点,但是这篇文章认为,他们应该属于两个不同种类的节点,这样进行分类更好。如图1所示,在本文的做法当中,会将一张图片中的自行车和人标记为不同的节点,例如人都是红色框标注,物体都是蓝色框标注,同一类的节点在文中称之为homogeneous nodes它们之间称为intra-class,而不同类的节点称为heterogene原创 2021-04-02 17:38:29 · 300 阅读 · 0 评论 -
Detecting Unseen Visual Relations Using Analogies阅读笔记
前言论文地址笔记这篇文章主要提出了一个混合模型,这个模型不仅结合了subject、object、predict这些成分,还有通过w2v encoding的visual phrase representation等。并且作者还提出了如何将训练集中已经有的学到的triplets transfer到训练集中没有见过的triplets。详细点说,作者的贡献有三个方面:First, we take advantage of both the compositional and visual phrase原创 2021-04-01 16:12:33 · 244 阅读 · 0 评论 -
Deep Contextual Attention for Human-Object Interaction Detection阅读笔记
前言论文地址笔记这篇文章写的非常清楚,我们直奔主题就好,作者提出了一个基于上下文注意力机制的网络,这个网络可以通过学习contextually-aware appearance特征来利用上下文信息识别HOI的模型。并且这个提出的注意力机制模型还能自适应的选取相关的以实例为中心的上下文信息去增强可能包含HOI的图像区域。直接来看整个框架比较新的东西就是红色矩形标出的context-Aware Appearance和Contextual Attention。其他部分都是之前提到过的,特别是上边的原创 2021-03-25 18:08:26 · 463 阅读 · 0 评论 -
No-Frills Human-Object Interaction Detection: Factorization, Appearance and Layout Encodings阅读笔记
前言论文地址笔记这篇文章反反复复读了多遍,其并没有什么过多的新内容,只是作者疯狂的对其进行修饰暗喻,把本来很多浅显易懂的词汇和概念都加以包装,这样的目的是为了进行投稿但对于读者来说确实是一种煎熬。作者在摘要中提出,其表明适当的factorization, and encodingsof layout and appearance constructed from outputs of pretrained object detectors就可以得到一个比其他复杂模型更好的HOI检测模型。作者原创 2021-03-24 18:16:08 · 318 阅读 · 0 评论 -
Transferable Interactiveness Prior for Human-Object Interaction Detection论文阅读笔记
前言论文地址,点这里笔记这篇文章主要的思想就是在对HOI分类前先做一个二分类,将输入图片中没有交互的部分给抑制掉,这像极了faster-rcnn中RPN部分对anchor回归时先做一个二分类,区分前景还是背景,然后RCNN部分再进行21分类。作者反复提到的说这个“Interactiveness prior is beyond theHOI categories and can be learned across datasets”意思就是说关于图中人和物体是否交互与最后的具体类别是无关的,因此原创 2021-03-19 12:40:16 · 186 阅读 · 0 评论 -
Learning Human-Object Interactions by Graph Parsing Neural Networks阅读笔记
前言这是一篇2018年发表在ECCV上得paper,论文原文点这里。笔记说实话刚看到这篇文章还是有点唬人的,文中作者提出了一个网络模型叫GPNN,图解析神经网络,我以为是跟GNN有关系,花了一些时间去看了近些年GCN的一些发展回头又读这篇文章的时候把GCN的思想带进去发现怎么都读不懂,后来才发现这篇文章仅仅是用了图的“结构”,后边的网络仍然是正常的Conv2D卷积。作者介绍,其提出了GPNN,一个可以结合结构知识和深度神经网络的学习能力的端到端的模型框架。对于给定的情景(一张图片),GPN原创 2021-03-17 19:48:15 · 508 阅读 · 0 评论 -
Learning to Detect Human-Object Interactions论文阅读笔记
前言这是一篇2018年发表在CS上的论文,原文地址点这里笔记这篇文章主要的贡献有两个,一是在原来HICO数据集的基础上增加了instance annotation,即动-名词对的文字注释。二是提出了HO-RCNN网络。注释部分没有什么好说的,比较有趣的是HO-RCNN网络,图三就是网络的结构,从图上来看,输入的图片被分成了三路,经过裁剪resize之后通过CNN提取特征,最后分别分类得到的损失相加作为最终整个网络的损失,以此来训练整个网络。关键的地方在于网络的输入部分,三个支路简单来说就原创 2021-03-12 19:25:02 · 461 阅读 · 0 评论 -
HICO: A Benchmark for Recognizing Human-Object Interactions in Images论文阅读笔记
前言论文原文地址点这里,这是2015年发表在ICCV上的一篇论文笔记本文作者提出了一个用于人和物体交互的新的数据集HICO。这个数据集的特点是有许多常见的物体类别(80种)、基于语义的注释(即将fix the bike和 repair the bike看做同一类别,因为语义上是一个意思)、还仔细标注了在每一张图片中与一个物体类别同时发生的多个交互。introduction部分作者主要就是阐述(shed light on)了现在有的数据集的一些问题,然后突出自己的数据集的特点,同时经过统计作者原创 2021-03-10 17:50:42 · 575 阅读 · 4 评论 -
Visual Semantic Role Labeling论文笔记
前言这是2015年发表在CS上的一篇文章,论文地址点这里笔记本篇文章的作者其实是模仿了效仿NLP中的SRL,即语义角色标注,就是给出一段话,要将这句话分词,以谓词为准,得到一系列的agent、instrument、object等。作者所说的VSRL就是给出一幅图片,给出图片中发生的动作,并框出人和与人交互的物体即object。文章反复出现的different semantic role其实就是说一个物体在不同的动作过程中会扮演不同的角色。比如像击球这个动作中,棒球棒扮演的是工具(instr)、棒球原创 2021-03-09 17:00:05 · 1077 阅读 · 1 评论