![](https://img-blog.csdnimg.cn/20201215170536666.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Computer Vision
文章平均质量分 90
记录计算机视觉中一些经典的算法
一只工程狮
对于深度学习较为感兴趣,研究范围包括但不限于图像分类、目标检测、图像分割、视频异常检测、动作识别、AI部署与优化加速等
展开
-
BSN —《Boundary-Sensitive Network for Temporal Action Proposal Generation》概述
BSN—《BSN:Boundary-Sensitive Network for Temporal Action Proposal Generation》概述引言:本文介绍了来自于上交大林天威大佬(知乎有账号)发表自ECCV’18上的一篇论文,本文主要提出了一种自下而上的动作检测框架网络 BSNBSNBSN ,一下是对本文的大体概述,如有错误,欢迎留言指出。一、主要贡献:提出了一种基于 locallocallocal tototo globalglobalglobal 的新架构(BSN)来生成原创 2020-06-07 09:37:00 · 1354 阅读 · 0 评论 -
SSN—《Temporal Action Detection with Structured Segment Networks》概述
《Temporal Action Detection with Structured Segment Networks》概述引言:最近阅读了本篇发表在ICCV’17上关于Action Detection的论文,之前阅读的大部分都是Action Recognition或者是Activity Recognition的论文,两者的区别在于前者不仅要识别动作的类别,还需要知道动作的起始帧和结束帧,以下是对本篇论文的大体概述,如有错误的地方,欢迎留言指正。一、主要贡献:提出了一种新的模型结构 SSNS原创 2020-06-03 16:15:15 · 917 阅读 · 0 评论 -
T3D—《Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification》概述
《Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification》概述引言:最近有些时间,所以把这篇之前读的论文来总结概括一下,以防自己以后遗忘查询也方便有需要的同学来阅读,本篇文章是在DenseNet的基础上(3D卷积核)使用类似于Inception的方法提出的一种新的网络结构T3D,以下是对该篇论文思路的大体概括,如有错误,欢迎留言指正。一、主要贡献:问题:如何用视频中的时间线索来精确原创 2020-06-01 13:44:59 · 1987 阅读 · 3 评论 -
P3D——《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》概述
《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》概述引言:最近阅读了本篇发表在ICCV’17上的论文,本文主要的贡献在于提出来了新的网络结构P3D,以及对于P3D网络结构组合的探究,最近又在想是不是可以在3维立体的视频中,对物体的行为进行感知,这可以结合三维重建方面的工作来探索,希望有大佬阅读了这篇博客可以发表一下自己的看法,以下是对本篇论文的概述,由于受水平的限制,如有错误,欢迎留言指正。一、主要原创 2020-05-28 11:02:12 · 1933 阅读 · 0 评论 -
《Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset》概述
《Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset》概述引言:最近阅读了本片论文,这是一篇发表在CVPR’17年的文章,总体上的贡献在于发布了一个新的数据集以及对3D卷积+Two-Stream方法的结合形成一个新的网络架构(I3D),以下是对本篇论文的概述,如有错误,欢迎留言指正。一、主要贡献:公布了新的Human Action Video 数据:Kinetics,它有400个人类动作类以及每个类超过400个原创 2020-05-27 08:35:32 · 761 阅读 · 0 评论 -
《Learning Spatiotemporal Features with 3D Convolutional Networks》概述
《Learning Spatiotemporal Features with 3D Convolutional Networks》概述写在前面:最近阅读了本篇论文,这篇论文发表在ICCV’15上,提出了经典的C3D网络结构,这是一种基于3D卷积的方式能够同时提取时间以及空间上的特征,以下是对文章的整体概述,如有错误的地方,欢迎留言指正。一、主要贡献:3D ConvNets 比起 2D ConvNets更容易学习时空特征;在C3D模型结构中使用一个3x3x3的卷积核应用在所有的layers层原创 2020-05-25 16:35:38 · 394 阅读 · 0 评论 -
《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述
《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述写在前面:最近阅读了本片论文,这篇论文主要是基于ConvNet+LSTM的形式对目标进行预测,作者还分别在动作识别、图片描述以及视频描述上都进行了实验对比,以下是文中的一些重要的结论,如有写的不道的地方,欢迎指正。一、主要贡献作者提出一种LRCN(Conv+LSTM)的模型结构,这是一类在空间和时间上都很深入的模型,它允许一对多、多原创 2020-05-25 00:07:19 · 607 阅读 · 0 评论 -
Early fusion vs Late fusion认知
Early fusion vs Late fusion认知转载自:https://blog.csdn.net/zzc15806/article/details/79592577?utm_source=blogxgwz1在机器学习这个领域,尤其是做多媒体(声音、图像、视频)相关的机器学习方法研究,会涉及很多特征、分类模型(分类任务)的选择。以声音识别为例,常见的特征有MFCC、LPCC、spectrogram-like features 等,分类模型就很多了,有传统的分类模型SVM、KNN、Rando转载 2020-05-13 22:59:44 · 1156 阅读 · 0 评论 -
浅析Bag-of-words及Bag-of-features原理
浅析Bag-of-words及Bag-of-features博客转载自:https://blog.csdn.net/qq_37374643/article/details/89946406Bag-of-words简介Bag-of-words应用于图像Bag-of-features基础流程1、特征提取2、学习 “视觉词典(visual vocabulary)”3、针对输入特征集,根据视觉词典进行量化4、把输入图像转化成视觉单词(visual words)的频率直方图图像检索1、TF-I转载 2020-05-12 16:31:56 · 1475 阅读 · 0 评论