自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (1)
  • 收藏
  • 关注

原创 A Generalized Unbiased Risk Estimator for Learning withAugmented Classes论文阅读

论文代码(使用的是华为mindspore框架)最近的一项研究表明,通过利用未标记数据,可以在类别转移条件下构造LAC在测试分布上的无偏风险估计量(URE)。本研究的动机是,尽管在标记的数据中无法观察到增强类的实例,但它们的分布信息可能包含在未标记的数据中,并通过区分已知类与未标记数据的分布来估计。这种URE对于学习任务是有利的,因为它可以导致基于经验风险最小化的理论基础方法。

2023-10-31 15:28:20 86

原创 Twin Contrastive Learning for Online Clustering

这篇文章利用双路对比学习实现了在线聚类,对我这个方向有一定帮助,以下是此双路对比学习的对比损失函数。

2023-10-10 15:47:06 141

原创 Unbiased Scene Graph Generation in Videos论文讲解

由于场景的内在动态性、模型预测的时间波动以及视觉关系的长尾分布,加上基于图像的动态场景图生成(SGG)已经存在的挑战,从视频中生成动态场景图(SGG)的任务非常复杂和具有挑战性。现有的动态SGG方法主要侧重于使用复杂架构捕获时空上下文,而没有解决上述挑战,特别是关系的长尾分布。这通常会导致产生有偏差的场景图。为了解决这些挑战,我们引入了一个名为TEMPURA(TEMemoryPrototypeguidedUnceRtaintyA。

2023-07-12 16:43:43 221

原创 Classification-Then-Grounding:Reformulating Video Scene Graphs as Temporal Bipartite Graphs

这是一篇来自CVPR 2022的文章,相较于传统的基于目标提议的两阶段方法,其将视频场景图重新表述为时间二部图(也称二分图),为视频场景图的生成及推理提供了新的研究思路。接下来对文章的主要内容做简要介绍。

2023-05-31 16:22:28 222

原创 VidSitu数据集

本文提出一种新的框架,用于使用视觉语义角色标注来理解和表示视频中相关的显著事件。作者将视频表示为一组相关事件,其中每个事件由一个动词和多个实体组成,这些实体履行与该事件相关的各种角色。为了研究视频或VidSRL中语义角色标注的挑战性任务,本文提出了VidSitu基准,这是一个大规模视频理解数据源,其中有29K个10秒的电影片段,用动词和进行了丰富的注释,每2秒进行语义角色标注。实体在电影片段内的事件中被共同引用,事件通过事件关系相互连接。

2023-05-04 19:59:40 184

原创 STTran部分代码解读

上篇文章的代码没能成功debug运行起来,另外上一篇文章代码的算力要求是很高的,这无疑与我而言并不是很合适的,因此我找了之前读过的论文STTran的代码,先对其中的部分代码进行解读,如有误人子弟之处还请批评指正,仅用作学习记录,后面将注重分析实验结果,对错误识别部分进行可视化分析,绘图工具推荐使用Graphviz(论文作者推荐使用,还未尝试效果如何)。第一部分是目标检测,对应上图中的Detector,第二部分是成对关系识别,对应Detector后面的部分,接下来针对这两个部分进行简单介绍。

2023-04-25 13:46:22 282

原创 Target Adaptive Context Aggregation for Video Scene Graph Generation

在本文中,提出了一个用于帧级VidSGG的模块化框架,称为目标自适应上下文聚合网络(TRACE)。为了自适应、高效地获取时空上下文信息,设计了一种新的层次关系树来指导时间注意融合和空间信息传播。该方法与简单的时间关联策略相结合,产生了模块化视频级VidSGG基线,在ImageNet-VidVRD的视频级指标下,无需使用复杂的跟踪功能,即可获得最佳性能。对于纯框架级别的VidSGG任务,TRACE仍然在Action Genome的基准上取得了SOTA。

2023-04-11 20:17:13 188

原创 场景图生成综述

场景图是对场景的结构化表示,可以清晰地表达场景中的对象、属性和对象之间的关系。随着计算机视觉技术的不断发展,人们不再满足于简单地检测和识别图像中的物体;相反,人们期待对视觉场景有更高层次的理解和推理。例如,给定一张图像,我们不仅要检测和识别图像中的物体,还要了解物体之间的关系(视觉关系检测),并根据图像内容生成文本描述(图像字幕)。或者,我们可能希望机器告诉我们图像中的小女孩在做什么(视觉问答(VQA)),甚至从图像中删除狗并找到类似的图像(图像编辑和检索),等等。

2023-03-30 16:30:35 5046 1

原创 论文Spatial-Temporal Transformer for Dynamic Scene Graph Generation

最近由于要做SGG方向,恰巧之前保存过这篇论文2107.12309.pdf (arxiv.org)https://arxiv.org/pdf/2107.12309.pdf代码地址: GitHub - yrcong/STTran: Spatial-Temporal Transformer for Dynamic Scene Graph Generation, ICCV2021https://github.com/yrcong/sttran想进一步了解SGG任务的可以看下这篇综述,后续我也会进一步研究。2104

2023-03-21 19:43:39 449

原创 DIN网络结构部分代码讲解

作者首先构建一个初始化的时空图,该时空图的连接为人物特征的时空邻居(空间维度按照人的坐标排序)。在这个初始化的时空图上,作者在定义的交互域内进行动态关系和动态游走预测,得到中心特征各异的交互图(总共T×N个交互图),然后中心特征可以在各自的交互图上进行特征更新。与stage1相比多了inference部分, infer_model.py中定义了第二部分的网络结构,下面的代码是与stage1不同的地方,作者将网络的第二阶段封装在了一个class中,定义在dynamic_infer_module.py。

2023-03-14 20:00:09 451 1

原创 DIN:用于群体行为识别的动态时空推理网络

本篇工作中,作者及团队提出了一种用于视频群体行为识别的动态时空推理网络(,在时空图的推理过程中引入可变形卷积的思想,通过在局部的时空交互域上对中心人物的全局交互图进行预测并更新特征,解决了之前在群体行为识别中可能出现的过平滑问题和计算量大的缺点。在同等实验设定下,推理模块只需要使用以往模型10%不到的计算量和参数量,便可以在两个业界权威数据集上达到最优结果。

2023-03-06 18:20:55 624

原创 论文Action Genome: Actions as Composition of Spatio-temporal Scene Graphs

Action Genome将动作分解成时空场景图。场景图解释了对象及其关系如何随着动作的发生而变化。通过收集大数据集的时空场景图来展示Action Genome的作用,并使用它来改进动作识别和少镜头动作识别的最新结果。最后,对新的场景图时空预测任务的结果进行了测试,实现了一定的性能提高。希望Action Genome能在可分解和一般化的视频理解上激发一个新的研究方向。

2023-02-16 11:09:24 187

原创 图神经网络(Graph Neural Networks)

图神经网络是以邻接点Embedding的浅层传播来训练Embedding。改变Aggregation和update的方式,可以构造不同的图神经网络;既可以用无监督的方式获得Embedding,也可以用有监督的方式直接训练分类任务。

2023-02-07 14:02:58 1047

原创 学术论文写作

摘要可以作为独立的文档,论文最后一个写。确定主题并指出其重要性。简要说明观点、方法、理论、发现。总结实验证明或理论证明。从论文中可以得出什么结论。解释问题问题陈述背景假设发现方法说明&贡献。

2023-01-03 19:31:38 114

原创 Reformulating HOI Detection as Adaptive Set Prediction

确定要集中的图像区域对于人-对象交互(HOI)检测至关重要。传统的HOI检测器专注于检测到的人和物对或预定义的交互位置,这限制了有效特征的学习。在本文中,作者将HOI检测重新表述为一个自适应集预测问题,利用这个新的公式,作者提出了一个基于自适应集的one-st0age框架(AS-Net),该框架具有并行实例和交互分支。

2022-11-22 18:03:58 687

原创 Transformer(Pytorch)部分讲解

之前在看transformer的时候写了一篇文章,文章整体几乎是对着论文翻译过来的,最近也算是有时间看了看transformer的代码,也看了看别人文章的介绍,此处记录下来,方便自己以后查看。前一篇介绍transformer的文章链接:(4条消息) Transformer_Mr___WQ的博客-CSDN博客接下来对transformer的代码做简单介绍。

2022-10-27 16:15:24 1397 1

原创 ReseNet简介

ResNet的应用比较广泛,为了方便以后的学习,对ResNet网络结构做了进一步了解,ResNet的种类有好几种,此处简要介绍ResNet-18的代码。

2022-10-20 15:24:37 582

原创 ECO: Efficient Convolutional Network for Online Video Understanding

考虑到不同用户需求,作者把之前的设计命名为了轻量版(Lite,代码中即为ECO,而Full在代码中为ECOfully),由此升级得到全尺寸版(Full)的设计。上图是ECO Lite的网络结构:视频被分成了N个同样时长的区段,在每个区段中随机抽取一帧,先把这些图片通过常规2D卷积网络进行处理得到特征图,再把特征图堆叠输入3D卷积网络。以上代码利用layer_factory.py中的部分函数,实现对ECO模型定义文件ECO.yaml的加载,并建立正向传播,返回正向传播最后得到的数据。输出是96个的特征图。

2022-10-13 16:39:33 683 1

原创 Optical Flow Guided Feature(OFF)简单介绍

OFF模块基本的代码在代码中有所体现,其并未将OFF单独作为Class进行实现,论文中含有多个OFF,部分OFF在进行卷积时输入的通道数以及尺寸均有所不同,此处仅仅以motion_3a为例,至于如何加入到其他的网络结构,需要对里面的shape进行更进一步的计算和设计,否则会出现维度不一致等问题,此处将OFF作为一个Class进行实现,相关代码如下,如有错误敬请指正。由于一些原因,需要对这篇论文介绍的OFF部分代码进行拆解,因此先上论文中的相关部分,再做进一步解释,水平有限,表达不准确敬请谅解。

2022-09-29 20:02:17 318

翻译 Optical Flow Guided Feature论文

运动表示在视频中的人体动作识别中起着至关重要的作用。在本研究中,作者引入了一种新的紧凑的视频动作识别运动表示,称为光流引导特征(OFF),它使网络能够通过快速和鲁棒的方法提取时间信息。OFF来自光流的定义,并与光流正交。推导还为使用两帧之间的差提供了理论支持。通过直接计算深度特征图的逐像素空间-时间梯度,OFF可以嵌入任何现有的基于CNN的视频动作识别框架中,只需稍微增加成本。它使CNN能够同时提取时空信息,特别是帧之间的时间信息。实验结果验证了这一简单而有力的想法。

2022-09-16 19:24:55 213

原创 Transformer

编码器-解码器,transformer

2022-08-31 20:30:48 213

原创 TSN论文简介

Temporal Segment Networks(TSN) 是一种用于视频中动作识别的框架。

2022-08-23 00:46:36 608

原创 行为识别方法简介

行为识别常用方法

2022-08-12 10:47:28 5264

原创 简要笔记-CNN网络

CNN简介

2022-07-07 14:04:07 987

原创 Pytorch笔记:线性回归、softmax回归

线性回归、softmax

2022-07-06 17:42:41 1357

原创 Pytorch-矩阵基本运算

pytorch入门,矩阵基本运算

2022-07-06 14:29:25 2083

原创 leetcode 879.盈利计划

多重背包问题

2022-06-15 13:12:48 187 1

二叉树BiTree.h

二叉树的二叉链表表示,从文件读取数据创建二叉树以及二叉树的有关算法。二叉树的创建及其处理是一个比较繁琐的过程,这里是以我所做实验进行的总结,部分代码参考了他人的算法并做了一些改进,希望对你们有所帮助。

2019-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除