Paper
文章平均质量分 90
论文阅读
一只工程狮
对于深度学习较为感兴趣,研究范围包括但不限于图像分类、目标检测、图像分割、视频异常检测、动作识别、AI部署与优化加速等
展开
-
BSN —《Boundary-Sensitive Network for Temporal Action Proposal Generation》概述
BSN—《BSN:Boundary-Sensitive Network for Temporal Action Proposal Generation》概述引言:本文介绍了来自于上交大林天威大佬(知乎有账号)发表自ECCV’18上的一篇论文,本文主要提出了一种自下而上的动作检测框架网络 BSNBSNBSN ,一下是对本文的大体概述,如有错误,欢迎留言指出。一、主要贡献:提出了一种基于 locallocallocal tototo globalglobalglobal 的新架构(BSN)来生成原创 2020-06-07 09:37:00 · 1329 阅读 · 0 评论 -
SSN—《Temporal Action Detection with Structured Segment Networks》概述
《Temporal Action Detection with Structured Segment Networks》概述引言:最近阅读了本篇发表在ICCV’17上关于Action Detection的论文,之前阅读的大部分都是Action Recognition或者是Activity Recognition的论文,两者的区别在于前者不仅要识别动作的类别,还需要知道动作的起始帧和结束帧,以下是对本篇论文的大体概述,如有错误的地方,欢迎留言指正。一、主要贡献:提出了一种新的模型结构 SSNS原创 2020-06-03 16:15:15 · 900 阅读 · 0 评论 -
T3D—《Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification》概述
《Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification》概述引言:最近有些时间,所以把这篇之前读的论文来总结概括一下,以防自己以后遗忘查询也方便有需要的同学来阅读,本篇文章是在DenseNet的基础上(3D卷积核)使用类似于Inception的方法提出的一种新的网络结构T3D,以下是对该篇论文思路的大体概括,如有错误,欢迎留言指正。一、主要贡献:问题:如何用视频中的时间线索来精确原创 2020-06-01 13:44:59 · 1960 阅读 · 3 评论 -
P3D——《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》概述
《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》概述引言:最近阅读了本篇发表在ICCV’17上的论文,本文主要的贡献在于提出来了新的网络结构P3D,以及对于P3D网络结构组合的探究,最近又在想是不是可以在3维立体的视频中,对物体的行为进行感知,这可以结合三维重建方面的工作来探索,希望有大佬阅读了这篇博客可以发表一下自己的看法,以下是对本篇论文的概述,由于受水平的限制,如有错误,欢迎留言指正。一、主要原创 2020-05-28 11:02:12 · 1870 阅读 · 0 评论 -
《Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset》概述
《Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset》概述引言:最近阅读了本片论文,这是一篇发表在CVPR’17年的文章,总体上的贡献在于发布了一个新的数据集以及对3D卷积+Two-Stream方法的结合形成一个新的网络架构(I3D),以下是对本篇论文的概述,如有错误,欢迎留言指正。一、主要贡献:公布了新的Human Action Video 数据:Kinetics,它有400个人类动作类以及每个类超过400个原创 2020-05-27 08:35:32 · 756 阅读 · 0 评论 -
《Learning Spatiotemporal Features with 3D Convolutional Networks》概述
《Learning Spatiotemporal Features with 3D Convolutional Networks》概述写在前面:最近阅读了本篇论文,这篇论文发表在ICCV’15上,提出了经典的C3D网络结构,这是一种基于3D卷积的方式能够同时提取时间以及空间上的特征,以下是对文章的整体概述,如有错误的地方,欢迎留言指正。一、主要贡献:3D ConvNets 比起 2D ConvNets更容易学习时空特征;在C3D模型结构中使用一个3x3x3的卷积核应用在所有的layers层原创 2020-05-25 16:35:38 · 388 阅读 · 0 评论 -
《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述
《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述写在前面:最近阅读了本片论文,这篇论文主要是基于ConvNet+LSTM的形式对目标进行预测,作者还分别在动作识别、图片描述以及视频描述上都进行了实验对比,以下是文中的一些重要的结论,如有写的不道的地方,欢迎指正。一、主要贡献作者提出一种LRCN(Conv+LSTM)的模型结构,这是一类在空间和时间上都很深入的模型,它允许一对多、多原创 2020-05-25 00:07:19 · 593 阅读 · 0 评论 -
《ECO: Efficient Convolutional network for Online video understanding》概述
《ECO: Efficient Convolutional network for Online video understanding》概述本文ECCV’18年的入选论文(不过我在ECCV上咋没找到啊[doge]),以下是对这篇论文贡献以及一些方法的概述,如有问题欢迎讨论。首先说一下本文总体阐述的一个重要的好处就是处理速度快,很快,非常快!yi...原创 2020-05-23 23:57:03 · 310 阅读 · 0 评论 -
《Two-Stream Convolutional Networks for Action Recognition in Videos》阅读
Two-Stream Convolutional Networks for Action Recognition in Videos最近阅读了视频动作识别中一篇经典的Two-stream识别方法,本文对文中的主要做法做一些大致的描述。如有问题,可以留言讨论。一、本文主要的贡献如下:提出了一种 two-stream 卷积网络结构, 分别为时间以及空间网络的结合,即two-stream(个人认为是文中最重要的贡献),其结构如Figure 1所示;证实了尽管在有限数据集的情况下,使用多帧稠密光流场作为输原创 2020-05-21 22:12:40 · 264 阅读 · 0 评论