视频识别
calvinpaean
Carpe diem.
展开
-
调研:暴力恐怖犯罪识别(图像识别)
一、方法:分类、目标检测、人体姿态分析1、腾讯优图:(接口:https://ai.qq.com/doc/imageterrorism.shtml)图片分类(属性):13类terrorists:恐怖分子; normalarmy:普通军;knife:刀;guns:枪;blood:血;fire:火;flag:旗帜;crowd:人群;ship:船;aircraft:飞机;cannon:大炮;armoredcar:装甲车;other_weapon:其他武器腾讯优图暴恐识别结果:2、百度暴恐识别:转载 2020-12-28 17:31:44 · 4647 阅读 · 1 评论 -
X3D: Expanding Architectures for Efficient Video Recognition 论文学习
Abstract本文提出的 X3D 是一组高效率的视频网络,沿着网络的空间、时间、宽度和深度维度来对较小的2D图像分类结构进行扩展。受到机器学习中特征选择方法的启发,本文使用了一个简单的、逐步的网络扩展方法,每一步中只扩展单个维度,这样就可以实现准确度与复杂度的平衡。为了将X3D的复杂度扩展至一个目标程度,在前向扩展操作之后会跟着一个反向的收缩操作。X3D实现了state of the art的性能,而计算量比以前的方法少了4.8×4.8\times4.8×,参数量少了5.5×5.5\times5.5×原创 2020-08-17 18:48:44 · 1986 阅读 · 0 评论 -
TAM: Temporal Adaptive Module for Video Recognition论文学习
Abstract时域建模在视频动作识别任务中,对于时空结构的获取非常重要。由于各种因素,如相机移动、速度差异,视频数据在时间维度上非常复杂。为了有效获取这些运动的模式,本文提出了一个新的时域自适应模块(TAM),基于特征图产生具体视频的卷积核。TAM提出了一个独特的双层级自适应建模机制,将动态的卷积核解耦为一个位置不敏感重要程度图,和一个位置不变聚合权重。重要程度图是在一个局部时域窗口内学习的,获取短时间内的信息,而聚合权重是从全局的角度生成的,关注在长时间的结构上。TAM 可以用在2D CNN中,得到一原创 2020-05-16 17:11:10 · 4268 阅读 · 1 评论 -
Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks论文学习
AbstractCNN 在图像识别领域是非常有效。但是用一个CNN学习时空视频特征就没那么简单了。有一些研究指出了,3D卷积在获取视频时空维度信息上是有帮助的。但是,3D CNN 要是非常深的话,就会非常消耗算力和内存。那么为什么不在3D CNN中使用现成的2D卷积呢?这篇论文针对残差网络设计了 bottleneck 构建模块的多个变体,在空间域用1×3×31\times 3\times 31×...原创 2020-03-23 20:51:09 · 803 阅读 · 1 评论 -
SlowFast Networks for Video Recognition 论文学习
Abstract本文针对视频识别提出了 SlowFast 网络。该模型有一个 Slow 分支,以较低的帧率运算,获取空间语义;还有一个Fast分支,以较高的帧率运行,获取精确的时间运动信息。通过降低通道数量,Fast分支可以变得很轻,但也能够学到有用的时域信息。该方法在视频动作分类和检测任务上都取得了很强的表现。作者在主要的视频识别基准(Kinetics, Charades, AVA)都获得了 ...原创 2020-03-12 20:32:52 · 703 阅读 · 0 评论 -
Learning Spatiotemporal Features with 3D Convolutional Networks 论文学习
Abstract本文针对时空特征学习提出了一个简单而有效的方法,就是在大规模的视频数据集上训练三维卷积网络(3D ConvNets)。本文的贡献主要有三方面:1)相较于二维卷积网络,三维卷积网络更适合时空特征的学习;2)对于三维卷积网络而言,在所有的层中使用3×3×33\times 3\times 33×3×3卷积核,这样的结构得到的表现是最优的;3)该方法学到的特征C3D(3D卷积),加上一个...原创 2020-03-08 22:47:21 · 291 阅读 · 0 评论 -
Learning Spatiotemporal Features with 3D Convolutional Network 论文学习
Abstract针对时空范围内的特征学习,我们利用深度三维卷积网络提出了一个简单而有效率的方法,该网络在大规模监督视频数据集上进行了训练。我们的贡献有三点:和二维卷积相比,三维卷积更适合时空范围内的特征学习;对于三维卷积网络,最优的结构就是在所有的层中都使用小型的3×3×33\times 3\times 33×3×3卷积核;该方法所学到的特征,我们称之为C3DC3DC3D(卷积3D),再...原创 2019-09-18 16:42:10 · 565 阅读 · 0 评论