自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (1)
  • 收藏
  • 关注

原创 24-cvpr-Extracting Graph from Transformer for Scene Graph Generation 学习笔记

受到Graph-RCNN [43]通过预测相关性来修剪对象对的影响,我们提出了一个连通性预测方法,该方法预测两个对象节点之间是否存在至少一条边,以进行关系提取。通过使用由不确定性调整的关系标签,目标检测和关系抽取的多任务学习可以根据检测对象的质量进行动态调节。它与一个由不匹配真实对象的对象候选组成的区域配对,并与公式 (2) 中的。通过交替的自注意力层和交叉注意力层,对象查询学习输入图像中对象候选的特征。个物体查询之间的双向关系,我们的关系提取器旨在通过将注意力查询和键分别视为主语和宾语,从整个。

2024-08-13 16:58:05 748

原创 24-cvpr-DSGG Dense Relation Transformer for an End-to-end Scene Graph Generation 学习笔记

节点 $ G $ 的第 $ i $ 个节点与 $ \hat{G} $ 的第 $ a $ 个节点之间的对应关系 $ \sigma_{i,a} $ 是一个双射函数,它将 $ G $ 的一个节点仅分配给 $ \hat{G} $ 的一个节点。我们将从图 $ G $ 到图 $ \hat{G} $ 的最优映射表示为 $ \hat{\sigma} $。只代表从一个节点到所有其他节点(包括自身)的有向边,这些可以用来学习节点特定的属性,如对象类别、边界框以及直接表示的分割掩码,记为。在我们的问题中,匹配成本考虑了。

2024-08-13 16:55:16 794

原创 23-CVPR-Prototype-based Embedding Network for Scene Graph Generation 学习笔记

因为目前的场景图生成会物体对的视觉信息进行场景图生成,但因为物体对又很多种可能的表现,因此在predicate的类别中有非常大的。例如:”man-eating-pizza, giraffe-eating-leaf“等。而类之间也有一定的。例如:”man-holding-plate, man-eating-pizza“等。而这阻碍了现有的场景图生成模型获得鲁棒的用于预测关系的特征。这篇文章认为,predicate类别固有的语义信息可以充当在语义空间类方面的元数据来缓解挑战。

2024-08-13 16:46:36 725

原创 23-CVPR-Iterative Scene Graph Generation with Generative Transformers 学习笔记

现有的场景图生成方法采取的是通过分类生成的方法,其中场景图是通过对场景中物体之间所有可能的边进行标记而生成的,这增加了计算的开销。该项工作介绍了一个生成的基于Transformer的方法来在链接预测的基础上生成场景图。使用两个基于Transformer的组件,我们首先从检测到的物体和它们的视觉特征中采样到可能的场景图结构,然后我们对采样到的edge进行分类来得到最后的场景图。

2024-08-13 16:40:40 933

原创 22-ECCV-panoptic scene graph generation 学习笔记

目前现有的SGG工作方法主要是用bbox识别object然后预测它们之间的relation。它们认为这种规范会阻碍这个领域的进步。例如,基于bounding box的labels在当下数据集中往往包含了很多冗余的类别,例如hair,并且会忽略背景信息对理解场景的巨大作用。因此该文提出了一个全新的任务叫做panoptic scene graph generation(全景场景图理解)。该任务基于全景的segmentation而不是固定的bbox。

2024-08-13 16:36:06 652

原创 22-CVPR-Structured Sparse R-CNN for Direct Scene Graph Generation 学习笔记

事件A的odds:事件A出现的次数和非A事件出现的次数之比事件A的概率:事件A出现的次数和所有事件出现的次数之比因此对于一个事件,当概率P从0.01-0.99进行变化的时候,概率P的变化范围是[0-1],而odds的变化范围是。

2024-08-12 18:06:57 972

原创 22-CVPR-SGTR End-to-end Scene Graph Generation with Transformer 学习笔记

目前现有的方法大多采用自下而上的两阶段或基于点的单阶段方法,而这些方法大多会导致很高的时间复杂度。因此本文提出了一个全新的场景图方法来解决上述提到的问题。为了解决这个问题,我们建立了一个基于transformer的端到端的框架来首先生成entity和predicate的建议集合,然后推断出有向边缘,构成关系三联体。具体的,我们使用了一个利用关系构成属性的结构化关系生成器来建立一个新的实体感知的关系表示。此外,我们设计了一个图组装模型来推断出二元场景图的连接性,这让我们可以使用一个端到端的方法来生成场景图。

2024-08-12 18:02:57 545

原创 22-CVPR-RU-Net Regularized Unrolling Network for Scene Graph Generation 学习笔记

我们首先从unrolling的观点(GMP 可以作为GLD的solver)中学习到GMP和图拉普拉斯去噪(GLD)。基于这类发现,我们提出了一种展开的消息传递模型并引入了一种基于ℓp​的图形正则化来抑制节点之间的虚假连接。第二、我们提出了一种图多样性的增强模型来提高关系预测的多样性。实验证明其在语义分割上具有很好的表现。

2024-08-12 17:55:31 573

原创 22-CVPR-HL-Net Heterophily Learning Network for Scene Graph Generation 学习笔记

现有的SGG方法只假设场景图是同质的(homophily),但忽略了它们的异质性(heterophily)。

2024-08-12 17:48:58 529

原创 22-CVPR-Fine-Grained Predicates Learning for Scene Graph Generation 学习笔记

目前场景图的生成模型的效果受到一些难以预测的关系的阻碍。例如“woman-on/standing on/walking on-beach” 或者“woman-near/looking at/in front of-child”。目前的SGG方法会倾向于预测头部关系(这里应该指的是on和near),然后现有的re-balancing战略则是更倾向于尾部类别,以上两种方法都没有办法很好的处理难以区分的关系。受到精细化图像分割的启发,这种精细化图像分割的方法专注于在难以区分的对象类别之间进行区分。

2024-08-12 17:25:52 777

原创 20-CVPR-Unbiased Scene Graph Generation From Biased Training 学习笔记

现有的场景图生成任务离实际运用还有一定的距离,这主要由于严重的训练偏执。比如过于丰富的多样性:human walk on/ sit on beach和human on beach。给出了这种SGG,下游任务类似VQA没有办法很好的理解场景图。但是,传统的debias方法没有办法很好的区分好的和不好的bias。例如好的背景知识(person read book 而不是 eat)。和不好的长尾偏置分布(eg:near 会主导 behind/in front of)。

2024-08-12 17:18:45 936

原创 19-CVPR-Learning to Compose Dynamic Tree Structures for Visual Contexts 学习笔记

该文章提出了一个动态树结构。它相较于其它模型有两点优势:1. 使用高效且富有表现力的二叉树编码了对象之间固有的平行/层次关系。例如衣服和裤子通常是平级的且隶属于人。2. 动态结构因图像而异,因任务而异,允许对象之间有更多的内容/任务的信息传递。

2024-08-12 17:13:20 863

原创 Explore Contextual Information for 3D Scene Graph Generation 学习笔记

本文提出了一个充分利用场景图中contextual信息的框架,整体由图特征获取模型和图contextual推理模型组成,实现了适当的信息冗余特征提取、组织结构化和层次化推理。

2024-08-12 17:09:24 657

原创 Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation 学习笔记

提出了一个semantic graph Transformer (SGT),目标是将点云场景变成一个目标结构图。目前基于GCN的场景图生成模型面临:1. GCN固有困境之过渡平滑。2. 只能从有限的邻接节点传播信息。因此该模型采用Transformer-based的网络来获取全局信息。具体来看,该模型包含了两个Transformer层:1. 提出了一个图嵌入层,来更好的。2. 提出了一个语义注入层,来利用文本标签和视觉对象知识。

2024-08-12 16:59:17 702

原创 24-AAAI-3D-STMN Dependency-Driven Superpoint-Text Matching Network for end-to-end 3D 核心笔记

依赖驱动交互(DDI)模块,实现了令牌级别的交互。该模块利用依赖语法树的先验信息来引导文本信息的流动。通过这种结构,进一步增强了网络架构中不同实例之间关系的推理能力,从而显著提升了模型的分割能力。

2024-08-12 16:56:06 677

原创 Visual-Linguistic Semantics Assisted Training for 3D Semantic Scene Graph Prediction 学习笔记+部分代码分析

因此本文的核心思想是**用一个cross-model的模型来帮助3D上的场景图生成。**这种结构可以在模型的训练阶段从2D、语言和3D几何结构中获取到对模型有益的语义信息。将2D和语言的语义信息异质的传输到3D的模型当中。该模型可以有效的提高现有模型的效果,同时在推理阶段。实验发现,该模型可以有效的提高以往的场景图生成模型的表现,例如SGFN和SGG_point。

2024-08-12 16:49:14 952

原创 21-NeurIPS-Knowledge-inspired 3D Scene Graph Prediction in Point Cloud 学习笔记

先验知识的引用可以使用图结构的方式帮助定义语义实体和实体间的关系,但是其有意义的抽象和干预仍然难以捉摸。本篇论文将模型在数学层面分为了两个子问题:1. 知识学习 2. 利用先验知识进行场景图预测。和卷积神经网络从编码的视觉信息中学习knowledge embedding和regular pattern不同,我们希望可以抑制因外观相似和其他知觉混乱造成的误解。在网络设计阶段,我们制定了一个图自编码器来从one-hot编码的类标签以及其本质上的图形结构中自动获取基于类的表示和拓扑结构,

2024-08-12 16:42:58 863

原创 21-CVPR-SceneGraphFusion Incremental 3D Scene Graph Prediction From RGB-D Sequences学习笔记

该模型提出了一种从RGB-D帧中生成3D场景图的方法。在具体实现中,该模型通过图卷积神经网络的方法从原始的场景组件中获取到PointNet的特征。该模型也提出了一种能够很好的。实验表明,我们的方法在很大程度上优于其它三维场景图预测方法,其准确性不落后于其他三维语义和全景分割方法,同时在35Hz下运行。b) 图1:我们创造了一个全局一致性的3D场景图a) 通过融合GNN和从RGB-D序列中生成的递进的几何分割c) 作为一个副产品,我们的方法可以对大规模的三维扫描产生精确的全景分割。节点代表不同的物体段。

2024-08-12 16:35:26 1110

原创 21-CVPR-Exploiting Edge-Oriented Reasoning for 3D Point-Based Scene Graph Analysis 学习笔记

该模型将场景图生成分为了三个阶段:分别是场景图构造、场景图reasoning和场景图inference。在reasoning阶段,提出了基于边的图卷积网络(EdgeGCN),以利用多维度的边特征进行明确的关系建模,同时探索节点和边缘之间的两个相关双重互动机制,以实现场景图表示的独立演化。

2024-08-12 16:29:42 855

原创 20 CVPR Learning 3D Semantic Scene Graphs From 3D Indoor Reconstructions 学习笔记

3RScan是大规模真实世界的室内场景,特点是对478个自然改变的室内环境在不同的时间帧进行了1482 RGB-D scans,每一个scene都包括了一些位置被改变的物体。它和ScanNet数据集的区别主要在于ScanNet中的每一个采样环境都不相同,但是3RScan中存在采样环境相同但物体的位置不同的场景。Scene Graph Annotations 则是在3RScan的基础上给物体加入了场景图需要的关系、物体特征和类别标注,同时对3RScan进行了扩展,以此形成了场景图数据。

2024-08-12 16:20:56 1046

原创 PointNet++ pytorch核心代码笔记

PointNet++核心代码

2022-01-17 20:41:30 1087

原创 KPConv 论文学习笔记

通过对于核点(kernel point)赋予权重矩阵并通过其定义空间,每一个核点的影响范围由一个函数确定。核点的个数是可变的。同时在基础模型之上还提出了一个deformable版本的卷积。这种模型在每个卷积位置(核点)产生不同的偏移,这意味着它可以为输入云的不同区域调整其核点分布的形状。

2022-01-16 22:24:17 1092

原创 RandLA-Net 论文学习

RandLA-Net是一个有效且轻便的能够很好的识别每一个点的语义的运用在大规模点云上的网络。

2022-01-16 22:20:06 1513

原创 PointNet 论文学习以及pytorch代码解读

因为点云数据具有无序性、点与点之间的关联性和不变性等特性,因此大部分研究者会将其转化到 3D 体素格栅或者图中,但这样会产生大量冗余数据。因此PointNet 设计一种直接使用2D卷积对点云进行 处理的方法,这种方法最大程度上尊重了点云的不变性

2022-01-16 21:13:36 1532 1

原创 90天减重30斤的经验分享

91天减重三十斤,个人经验畅谈

2021-11-04 16:24:50 1007

原创 PointPillars: Fast Encoders for Object Detection from Point Clouds 论文学习笔记

Abstract这篇论文是采用一个Encoder 的模式来编码点云使之适应下游的检查任务。现有的文献中提供了两种类型的Encoder。一种是固定的编码器,这种encoder往往速度快,但牺牲了准确性;另一种是从数据中学习的编码器,这种编码更准确,但速度较慢。PointPillars 一个使用PointNets 来学习垂直列组织(pillars)的点云表达的算法。目前该模型在多个任务中达到了state of art 的程度。Introduction第一段介绍了雷达传感器在部署自动驾驶上的应用,指出

2021-10-31 19:41:51 292

原创 Frustum PointNets for 3D Object Detection from RGB-D Data 论文学习笔记

Abstract论文中直接通过对RGB-D的原始扫描图来对原始点云进行处理。这个方法的关键挑战是如何在大规模场景的点云中对物体进行定位(region Proposal)相较于只使用3D图的proposal,我们的方法在物体定位中使用了成熟的2D物体检测器和额外的3D深度学习。这使得我们的模型在高效的基础上获得很高的召回率(recall 指正例被预测正确的比例)得益于直接对原始的3D点云进行处理,我们的方法也能够精准的估计3D bonding box,即便是在很高的遮挡率和很稀疏的点云的情况下Intr

2021-10-31 19:36:04 915

原创 VoxelNet:End_to_End Learning for Point Cloud Based 3D Object Detection 论文学习与解读

IntroductionLiDAR(激光雷达)获取到的点云数据存在存在很高的随机点密度,这是由非均匀的3D空间采样,对一系列有效的传感器的遮盖和相关的动作。为了解决解决这个问题,很多方法采用人为手工制作点云的特征表现来用于3D物体识别。然而手工的方法在获取3D类型信息和获取侦测任务所需的不变信息中会产生瓶颈RPNRegion Proposal Network,用于生成候选区域(Region Proposal)RPN 包括以下部分:生成 anchor boxes(锚框)判断每个 a

2021-10-22 16:25:43 1068

modelnet40 官方数据集

modelnet标准数据集以及数据集的读取方法,其中modelnet40开头的压缩文件是数据,data中有对应的train和test的读取以及random drop and translate,能有效提高模型的准确率。直接可以使用,目前的sota的源码中大多都使用这一个数据集,需要pytorch环境

2022-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除