计算机视觉
文章平均质量分 91
nooobme
绝不能躺平
展开
-
算法笔记(六)多尺度特征融合之FPN/PANet
前言最近论文快deadline了,一直没空更新…今天复习一下多尺度特征融合的常用模型。FPN 特征金字塔论文:feature pyramid networks for object detection论文链接:https://arxiv.org/abs/1612.03144思路:底层的特征语义信息比较少,但是目标位置准确。高层的特征语义信息比较丰富,但是目标位置比较粗略。...原创 2021-09-22 20:10:54 · 9791 阅读 · 0 评论 -
MOT多目标跟踪评价指标代码py-motmetrics
前言先看两篇文章:多目标跟踪评价指标介绍1,多目标跟踪评价指标介绍2,MOT数据集格式介绍。MOT的格式,例如gt.txt:1,0,1255,50,71,119,1,1,12,0,1254,51,71,119,1,1,13,0,1253,52,71,119,1,1,1...例如test.txt:1,1,1240.0,40.0,120.0,96.0,0.999998,-1,-1,-12,1,1237.0,43.0,119.0,96.0,0.999998,-1,-1,-13,1,1237原创 2021-08-09 15:23:57 · 10912 阅读 · 45 评论 -
AVA时空检测数据集下载—AVA_Actions&AVA_Kinetics
这里写目录标题AVA系列AVA-ActionsAVA-KineticsAVA标注规范标签类别标注方式CSV格式旧版视频下载AVA-Actions下载AVA-Kinetics视频以下代码可以在我的github找到。欢迎访问个人主页、博客。AVA系列AVA数据集官方网站,需要科学上网,AVA提供4类数据集:AVA-Kinetics(v1.0)):时空动作检测,包含来自 AVA v2.2 的原始 430 个视频,以及来自Kinetics-700 数据集的238k 个视频 。AVA-Action原创 2021-07-16 16:20:07 · 4556 阅读 · 3 评论 -
Towards Long-Form Video Understanding 走向长篇视频理解
Object Transformer:Towards Long-Form Video Understanding该篇属于基于关系建模的时空行为检测方法。Object Transformer贡献点文章思路Object-Centric设计自我监督预处理掩码实例预训练跨度兼容性预训练实施细节实验看这篇的起因,是因为在AVA数据集排行榜上看到Object Transformer模型排名第一,达到31%mAP,以下如果解读有误,恳请指正。Object Transformer模型是主要做的是长期视频理解,.原创 2021-07-14 23:14:00 · 884 阅读 · 2 评论 -
动作/行为识别调研
动作识别调研1. 简介1.1 基本概念1.2 难点2. 人体动作识别系统2.1 传统方法2.1.1 iDT框架2.2 深度学习方法2.2.1 Two-Stream双流架构2.2.2 3D卷积架构2.2.3 CNN+LSTM架构2.2.4 GCN架构相关文献1. 简介动作/行为识别,也可称为(Human Action/Activity Recognition,HAR),就是从视频片段(可视为2D帧序列)中分辨人的动作类型。从操作角度,可以看作将视频转换为多个RGB帧,再对多帧组合进行特征提取,最后原创 2021-07-08 10:23:57 · 4456 阅读 · 3 评论