健身的程序猿
码龄6年
关注
提问 私信
  • 博客:29,377
    社区:2
    29,379
    总访问量
  • 28
    原创
  • 96,124
    排名
  • 366
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-10-24
博客简介:

weixin_43508459的博客

查看详细资料
  • 原力等级
    当前等级
    2
    当前总分
    187
    当月
    0
个人成就
  • 获得523次点赞
  • 内容获得1次评论
  • 获得505次收藏
创作历程
  • 20篇
    2024年
  • 4篇
    2022年
  • 4篇
    2021年
成就勋章
TA的专栏
  • 笔记
    7篇
兴趣领域 设置
  • 人工智能
    opencv计算机视觉目标检测pytorch
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

24-cvpr-Extracting Graph from Transformer for Scene Graph Generation 学习笔记

受到Graph-RCNN [43]通过预测相关性来修剪对象对的影响,我们提出了一个连通性预测方法,该方法预测两个对象节点之间是否存在至少一条边,以进行关系提取。通过使用由不确定性调整的关系标签,目标检测和关系抽取的多任务学习可以根据检测对象的质量进行动态调节。它与一个由不匹配真实对象的对象候选组成的区域配对,并与公式 (2) 中的。通过交替的自注意力层和交叉注意力层,对象查询学习输入图像中对象候选的特征。个物体查询之间的双向关系,我们的关系提取器旨在通过将注意力查询和键分别视为主语和宾语,从整个。
原创
发布博客 2024.08.13 ·
921 阅读 ·
25 点赞 ·
0 评论 ·
16 收藏

24-cvpr-DSGG Dense Relation Transformer for an End-to-end Scene Graph Generation 学习笔记

节点 $ G $ 的第 $ i $ 个节点与 $ \hat{G} $ 的第 $ a $ 个节点之间的对应关系 $ \sigma_{i,a} $ 是一个双射函数,它将 $ G $ 的一个节点仅分配给 $ \hat{G} $ 的一个节点。我们将从图 $ G $ 到图 $ \hat{G} $ 的最优映射表示为 $ \hat{\sigma} $。只代表从一个节点到所有其他节点(包括自身)的有向边,这些可以用来学习节点特定的属性,如对象类别、边界框以及直接表示的分割掩码,记为。在我们的问题中,匹配成本考虑了。
原创
发布博客 2024.08.13 ·
890 阅读 ·
23 点赞 ·
0 评论 ·
15 收藏

23-CVPR-Prototype-based Embedding Network for Scene Graph Generation 学习笔记

因为目前的场景图生成会物体对的视觉信息进行场景图生成,但因为物体对又很多种可能的表现,因此在predicate的类别中有非常大的。例如:”man-eating-pizza, giraffe-eating-leaf“等。而类之间也有一定的。例如:”man-holding-plate, man-eating-pizza“等。而这阻碍了现有的场景图生成模型获得鲁棒的用于预测关系的特征。这篇文章认为,predicate类别固有的语义信息可以充当在语义空间类方面的元数据来缓解挑战。
原创
发布博客 2024.08.13 ·
881 阅读 ·
15 点赞 ·
0 评论 ·
24 收藏

23-CVPR-Iterative Scene Graph Generation with Generative Transformers 学习笔记

现有的场景图生成方法采取的是通过分类生成的方法,其中场景图是通过对场景中物体之间所有可能的边进行标记而生成的,这增加了计算的开销。该项工作介绍了一个生成的基于Transformer的方法来在链接预测的基础上生成场景图。使用两个基于Transformer的组件,我们首先从检测到的物体和它们的视觉特征中采样到可能的场景图结构,然后我们对采样到的edge进行分类来得到最后的场景图。
原创
发布博客 2024.08.13 ·
1022 阅读 ·
28 点赞 ·
0 评论 ·
25 收藏

22-ECCV-panoptic scene graph generation 学习笔记

目前现有的SGG工作方法主要是用bbox识别object然后预测它们之间的relation。它们认为这种规范会阻碍这个领域的进步。例如,基于bounding box的labels在当下数据集中往往包含了很多冗余的类别,例如hair,并且会忽略背景信息对理解场景的巨大作用。因此该文提出了一个全新的任务叫做panoptic scene graph generation(全景场景图理解)。该任务基于全景的segmentation而不是固定的bbox。
原创
发布博客 2024.08.13 ·
757 阅读 ·
27 点赞 ·
0 评论 ·
13 收藏

22-CVPR-Structured Sparse R-CNN for Direct Scene Graph Generation 学习笔记

事件A的odds:事件A出现的次数和非A事件出现的次数之比事件A的概率:事件A出现的次数和所有事件出现的次数之比因此对于一个事件,当概率P从0.01-0.99进行变化的时候,概率P的变化范围是[0-1],而odds的变化范围是。
原创
发布博客 2024.08.12 ·
1024 阅读 ·
13 点赞 ·
0 评论 ·
22 收藏

22-CVPR-SGTR End-to-end Scene Graph Generation with Transformer 学习笔记

目前现有的方法大多采用自下而上的两阶段或基于点的单阶段方法,而这些方法大多会导致很高的时间复杂度。因此本文提出了一个全新的场景图方法来解决上述提到的问题。为了解决这个问题,我们建立了一个基于transformer的端到端的框架来首先生成entity和predicate的建议集合,然后推断出有向边缘,构成关系三联体。具体的,我们使用了一个利用关系构成属性的结构化关系生成器来建立一个新的实体感知的关系表示。此外,我们设计了一个图组装模型来推断出二元场景图的连接性,这让我们可以使用一个端到端的方法来生成场景图。
原创
发布博客 2024.08.12 ·
637 阅读 ·
15 点赞 ·
0 评论 ·
11 收藏

22-CVPR-RU-Net Regularized Unrolling Network for Scene Graph Generation 学习笔记

我们首先从unrolling的观点(GMP 可以作为GLD的solver)中学习到GMP和图拉普拉斯去噪(GLD)。基于这类发现,我们提出了一种展开的消息传递模型并引入了一种基于ℓp​的图形正则化来抑制节点之间的虚假连接。第二、我们提出了一种图多样性的增强模型来提高关系预测的多样性。实验证明其在语义分割上具有很好的表现。
原创
发布博客 2024.08.12 ·
677 阅读 ·
29 点赞 ·
0 评论 ·
28 收藏

22-CVPR-HL-Net Heterophily Learning Network for Scene Graph Generation 学习笔记

现有的SGG方法只假设场景图是同质的(homophily),但忽略了它们的异质性(heterophily)。
原创
发布博客 2024.08.12 ·
578 阅读 ·
27 点赞 ·
0 评论 ·
12 收藏

22-CVPR-Fine-Grained Predicates Learning for Scene Graph Generation 学习笔记

目前场景图的生成模型的效果受到一些难以预测的关系的阻碍。例如“woman-on/standing on/walking on-beach” 或者“woman-near/looking at/in front of-child”。目前的SGG方法会倾向于预测头部关系(这里应该指的是on和near),然后现有的re-balancing战略则是更倾向于尾部类别,以上两种方法都没有办法很好的处理难以区分的关系。受到精细化图像分割的启发,这种精细化图像分割的方法专注于在难以区分的对象类别之间进行区分。
原创
发布博客 2024.08.12 ·
896 阅读 ·
28 点赞 ·
0 评论 ·
29 收藏

20-CVPR-Unbiased Scene Graph Generation From Biased Training 学习笔记

现有的场景图生成任务离实际运用还有一定的距离,这主要由于严重的训练偏执。比如过于丰富的多样性:human walk on/ sit on beach和human on beach。给出了这种SGG,下游任务类似VQA没有办法很好的理解场景图。但是,传统的debias方法没有办法很好的区分好的和不好的bias。例如好的背景知识(person read book 而不是 eat)。和不好的长尾偏置分布(eg:near 会主导 behind/in front of)。
原创
发布博客 2024.08.12 ·
977 阅读 ·
8 点赞 ·
0 评论 ·
8 收藏

19-CVPR-Learning to Compose Dynamic Tree Structures for Visual Contexts 学习笔记

该文章提出了一个动态树结构。它相较于其它模型有两点优势:1. 使用高效且富有表现力的二叉树编码了对象之间固有的平行/层次关系。例如衣服和裤子通常是平级的且隶属于人。2. 动态结构因图像而异,因任务而异,允许对象之间有更多的内容/任务的信息传递。
原创
发布博客 2024.08.12 ·
907 阅读 ·
13 点赞 ·
0 评论 ·
23 收藏

Explore Contextual Information for 3D Scene Graph Generation 学习笔记

本文提出了一个充分利用场景图中contextual信息的框架,整体由图特征获取模型和图contextual推理模型组成,实现了适当的信息冗余特征提取、组织结构化和层次化推理。
原创
发布博客 2024.08.12 ·
710 阅读 ·
30 点赞 ·
0 评论 ·
26 收藏

Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation 学习笔记

提出了一个semantic graph Transformer (SGT),目标是将点云场景变成一个目标结构图。目前基于GCN的场景图生成模型面临:1. GCN固有困境之过渡平滑。2. 只能从有限的邻接节点传播信息。因此该模型采用Transformer-based的网络来获取全局信息。具体来看,该模型包含了两个Transformer层:1. 提出了一个图嵌入层,来更好的。2. 提出了一个语义注入层,来利用文本标签和视觉对象知识。
原创
发布博客 2024.08.12 ·
770 阅读 ·
25 点赞 ·
0 评论 ·
17 收藏

24-AAAI-3D-STMN Dependency-Driven Superpoint-Text Matching Network for end-to-end 3D 核心笔记

依赖驱动交互(DDI)模块,实现了令牌级别的交互。该模块利用依赖语法树的先验信息来引导文本信息的流动。通过这种结构,进一步增强了网络架构中不同实例之间关系的推理能力,从而显著提升了模型的分割能力。
原创
发布博客 2024.08.12 ·
708 阅读 ·
16 点赞 ·
0 评论 ·
9 收藏

Visual-Linguistic Semantics Assisted Training for 3D Semantic Scene Graph Prediction 学习笔记+部分代码分析

因此本文的核心思想是**用一个cross-model的模型来帮助3D上的场景图生成。**这种结构可以在模型的训练阶段从2D、语言和3D几何结构中获取到对模型有益的语义信息。将2D和语言的语义信息异质的传输到3D的模型当中。该模型可以有效的提高现有模型的效果,同时在推理阶段。实验发现,该模型可以有效的提高以往的场景图生成模型的表现,例如SGFN和SGG_point。
原创
发布博客 2024.08.12 ·
1072 阅读 ·
14 点赞 ·
0 评论 ·
26 收藏

21-NeurIPS-Knowledge-inspired 3D Scene Graph Prediction in Point Cloud 学习笔记

先验知识的引用可以使用图结构的方式帮助定义语义实体和实体间的关系,但是其有意义的抽象和干预仍然难以捉摸。本篇论文将模型在数学层面分为了两个子问题:1. 知识学习 2. 利用先验知识进行场景图预测。和卷积神经网络从编码的视觉信息中学习knowledge embedding和regular pattern不同,我们希望可以抑制因外观相似和其他知觉混乱造成的误解。在网络设计阶段,我们制定了一个图自编码器来从one-hot编码的类标签以及其本质上的图形结构中自动获取基于类的表示和拓扑结构,
原创
发布博客 2024.08.12 ·
899 阅读 ·
27 点赞 ·
0 评论 ·
23 收藏

21-CVPR-SceneGraphFusion Incremental 3D Scene Graph Prediction From RGB-D Sequences学习笔记

该模型提出了一种从RGB-D帧中生成3D场景图的方法。在具体实现中,该模型通过图卷积神经网络的方法从原始的场景组件中获取到PointNet的特征。该模型也提出了一种能够很好的。实验表明,我们的方法在很大程度上优于其它三维场景图预测方法,其准确性不落后于其他三维语义和全景分割方法,同时在35Hz下运行。b) 图1:我们创造了一个全局一致性的3D场景图a) 通过融合GNN和从RGB-D序列中生成的递进的几何分割c) 作为一个副产品,我们的方法可以对大规模的三维扫描产生精确的全景分割。节点代表不同的物体段。
原创
发布博客 2024.08.12 ·
2269 阅读 ·
51 点赞 ·
0 评论 ·
41 收藏

21-CVPR-Exploiting Edge-Oriented Reasoning for 3D Point-Based Scene Graph Analysis 学习笔记

该模型将场景图生成分为了三个阶段:分别是场景图构造、场景图reasoning和场景图inference。在reasoning阶段,提出了基于边的图卷积网络(EdgeGCN),以利用多维度的边特征进行明确的关系建模,同时探索节点和边缘之间的两个相关双重互动机制,以实现场景图表示的独立演化。
原创
发布博客 2024.08.12 ·
907 阅读 ·
37 点赞 ·
0 评论 ·
19 收藏

20 CVPR Learning 3D Semantic Scene Graphs From 3D Indoor Reconstructions 学习笔记

3RScan是大规模真实世界的室内场景,特点是对478个自然改变的室内环境在不同的时间帧进行了1482 RGB-D scans,每一个scene都包括了一些位置被改变的物体。它和ScanNet数据集的区别主要在于ScanNet中的每一个采样环境都不相同,但是3RScan中存在采样环境相同但物体的位置不同的场景。Scene Graph Annotations 则是在3RScan的基础上给物体加入了场景图需要的关系、物体特征和类别标注,同时对3RScan进行了扩展,以此形成了场景图数据。
原创
发布博客 2024.08.12 ·
1232 阅读 ·
15 点赞 ·
0 评论 ·
23 收藏
加载更多