机器学习
文章平均质量分 87
Michaelliu_dev
这个作者很懒,什么都没留下…
展开
-
《Mask2Former》算法详解
文章为发表在CVPR2022的一篇文章。从名字可以看出文章像提出一个可以统一处理各种分割任务(全景分割、语义分割、实例分割)的网络。原创 2024-05-03 20:04:04 · 1505 阅读 · 0 评论 -
MedianFlow 跟踪算法详解
在技术日新月异的时代,今天的技术可能在明天就会被新的技术取代,例如现在爆火的大模型。但目前看来,大模型还不能做到无所不能。所以这篇博客还是来考古一下,写一下传统的跟踪算法。这里不是为了怼大模型而为了写一篇传统算法而写传统算法。只是觉得这个算法有个思想非常有意思,所以记录一下。该算法在2010年发表在ICPR上,它主要是提出了Forward-Backward errors这种跟踪点的校验思想,使得跟踪点更为可靠。原创 2023-11-04 14:34:40 · 370 阅读 · 0 评论 -
RepVGG: Making VGG-style ConvNets Great Again
文章发表于CVPR2021,文章提出一种将训练态和推断态网络结构解耦的方法。文章认为目前复杂的网络结构能够获取更高的精度,但是存在很明显的缺点:多分支结构可能会降低推断速度以及更占用显存。原创 2023-05-05 21:49:20 · 453 阅读 · 1 评论 -
COCO物体检测评测方法简介
本文从ap计算到map计算,最后到coco[0.5:0.95:0.05] map的计算,一步一步拆解物体检测指标map的计算方式。原创 2023-02-11 16:59:59 · 1019 阅读 · 0 评论 -
时序动作分割(temporal action segmentation)任务介绍
时序动作分割(temporal action segmentation)任务介绍原创 2022-10-01 10:22:34 · 2066 阅读 · 1 评论 -
《Attention Is All You Need》算法详解
该篇文章右谷歌大脑团队在17年提出,目的是解决对于NLP中使用RNN不能并行计算(详情参考【译】理解LSTM(通俗易懂版)),从而导致算法效率低的问题。该篇文章中的模型就是近几年大家到处可以听到的Transformer模型。一、算法介绍前的说明由于该文章提出是解决NLP(Nature Language Processing)中的任务,例如文章实验是在翻译任务上做的。为了CV同学更好的理解,先简单介绍一下NLP任务的一个工作流程,来理解模型的输入和输出是什么。1.1 CV模型的输入和输出首先拿CV中的原创 2022-04-14 19:11:38 · 2677 阅读 · 0 评论 -
《ECO: Efficient Convolutional Network for Online Video Understanding》
文章地址:《ECO: Efficient Convolutional Network for Online Video Understanding》代码地址:https://github.com/mzolfaghari/ECO-efficient-video-understanding对于视频理解,只使用少部分帧计算速度会比较快,但是对于数秒长的视频需要利用更多的帧信息来提高检测精度。为了解决这种问题,文章提出一种既可以利用较长的时间信息又可以较快的计算的网络。一、网络结构首先文章认为视频帧存在一些原创 2021-05-16 17:18:10 · 440 阅读 · 0 评论 -
R-C3D论文详解
论文链接:R-C3D: Region Convolutional 3D Network for Temporal Activity Detection代码地址(论文提供地址):http://ai.bu.edu/r-c3d/该论文借鉴图像物体检测中的Faster-RCNN的思想,文章采用3D卷积来获取视频的时序信息,然后通过类似Faster-RCNN的rpn层和roi层输出时间维度的boundingbox,也就是视频中待检测动作的时间段。一、网络结构R-C3D的网络结构如下图所示:从上图可以看出,原创 2021-04-01 21:36:21 · 1256 阅读 · 0 评论 -
《SlowFast Networks for Video Recognition》论文详解
论文地址:https://arxiv.org/abs/1812.03982代码地址:https://github.com/facebookresearch/SlowFast该篇文章有Facebook提出,作者之一为何凯明,文章发表在ICCV2019,文章可以看出是一个特殊的双流法网络,不同于以前的双流法使用图像模态和光流模态(或者其他能代替光流的模态)作为输入,slowfast网络只使用图像模态作为输入。文章启发于生物学中的视觉系统。研究表明视网膜神经节细胞中有约80%的P-cells(Parvocel原创 2021-03-12 23:47:59 · 1042 阅读 · 0 评论 -
《X3D: Expanding Architectures for Efficient Video Recognition》论文详解
论文地址:https://arxiv.org/abs/2004.04730代码地址:https://github.com/facebookresearch/SlowFast该篇文章也是Facebook的作品,为什么说也,因为它是slowfast之后出的,而且可以理解为是slowfast思路上的改进版本,代码仓库和slowfast是一个仓库。文章说它的启发来自于之前2D高效网络,将扩展(expand)操作应用到3D卷积网络中。但是由于实验方式,网络结构,对标baseline,还有文章也提到了slowfas原创 2021-03-27 10:51:34 · 901 阅读 · 1 评论 -
CTAP算法详解
文章地址:CTAP: Complementary Temporal Action Proposal Generation代码地址:https://github.com/jiyanggao/CTAP该文章发表于ECCV2018。现在tempporal action proposal任务主流的有两种方式。一种是采用滑窗方式,但这种方式得不到精确的边界。一种是采用基于grouping的方式,这种方式相对于划窗方式能得到更为精确的边界,但是这种方式召回会低于前者。为了解决两种方式的缺点,文章提出采用两种方式一原创 2021-05-13 23:31:58 · 1729 阅读 · 0 评论 -
《TSM: Temporal Shift Module for Efficient Video Understanding》
文章地址:https://arxiv.org/pdf/1811.08383.pdf代码地址:https://github.com/mit-han-lab/temporal-shift-module这篇文章思路比较有意思,而且也比较实用,文章引入一个叫Temporal Shift Module(TSM)模块来处理时序上的信息,而且TSM是0计算量、0参数的模块(虽然0计算、0参数但也是会引入少量的延时的)。下面来具体看看文章是怎么做到的。一、网络结构1.1 思路先拿正经的卷积操作来举例说明。假设现在原创 2021-03-27 10:52:43 · 738 阅读 · 0 评论 -
TSA-Net论文详解
TSA-Net论文详解发布文章论文地址:Scale Matters: Temporal Scale Aggregation Network for Precise ActionLocalization in Untrimmed Videos该文章发表在ICME2020,文章认为时序检测定位边界时,时序信息的充分利用是很重要的,但是因为不同的动作类别时长是不一样的,所有one-for-all的感受野是比较难的,为了解决这种问题文章提出了多尺度的感受野融合的方法。文章的目的只是解决时序提名的问题。一、原创 2021-04-11 21:10:25 · 816 阅读 · 0 评论 -
《TDN: Temporal Difference Networks for Efficient Action Recognition》论文详解
论文地址:https://arxiv.org/abs/2012.10071代码地址:https://github.com/MCG-NJU/TDN该文章在2020年12月份发表于arxiv,文章提出了short-term TDM和long-sterm TDM模块来高效的获取local motion信息和global motion信息。从而在速度和精度上都取得了较好的成绩。一、网络结构网络结构如下图所示,从图中可以看出大体的框架类似于TSN模型(实际从代码上来说用的也是TSN的框架),虽然图中在shor原创 2021-03-07 22:55:46 · 3186 阅读 · 9 评论 -
《No frame left behind: Full Video Action Recognition》
文章地址:《No frame left behind: Full Video Action Recognition》代码地址:暂无现有算法都是通过类似于uniform sample对一个视频采样出部分帧,进而使用这部分帧对视频进行分类。文章认为将视频中所有的帧利用起来会对分类任务有所帮助,所以文章提出了一种既不占用大量显存也不增加太多计算时间的方式来利用所有的视频帧进行视频的分类任务。一、研究动机现有的算法对于将所有的帧计算,是不太可行的,一个是计算量,一个是显存问题。对于计算量的问题,虽然现在的原创 2021-05-15 16:15:40 · 470 阅读 · 0 评论 -
Image captioning任务常用的评价指标计算
BLEU (bilingual evaluation understudy) ACL-2002Meteor AMTA-2004ROUGE-L ACL-2004CIDEr CVPR-2015SPICE ECCV-2016原创 2021-10-24 19:56:00 · 850 阅读 · 0 评论 -
Image captioning评价方法之SPICE
项目地址:https://panderson.me/spice/上述的项目地址包含了论文地址和代码地址。该方法是由The Australian National University和Macquarie University联合发表在ECCV2016上。文章认为之前的评价方法采用n-gram的方式计算不是特别的好,例如下面例子(a) A young girl standing on top of a tennis court.(b) A giraffe standing on top of a g原创 2021-10-24 19:55:09 · 2552 阅读 · 1 评论 -
Image captioning评价方法之CIDEr
文章地址:CIDEr: Consensus-based Image Description Evaluation代码地址(非官方,且代码实现的是CIDEr-D):https://github.com/tylin/coco-caption文章由微软和Virginia Tech联合发表在CVPR2015上。CIDEr是专门用来评价image captioning效果的评价指标。下面先定义一些符号。对于一张图片IiI_iIi,candidate sentence定义为cic_ici, referenc原创 2021-10-24 19:53:07 · 2856 阅读 · 0 评论 -
Image captioning评价方法之ROUGE-L
文章地址:ROUGE: A Package for Automatic Evaluation of Summaries代码地址(非官方):https://github.com/tylin/coco-caption文章由University of Southern California发表在2004ACL上。ROUGE为 Recall-Oriented Understudy for Gisting Evaluation的缩写。文章ROUGE提出了用来评价文本摘要算法的评价集,里面包含了四个评价算法,分原创 2021-10-24 19:51:34 · 614 阅读 · 0 评论 -
Image captioning评价方法之Meteor
项目地址:http://www.cs.cmu.edu/~alavie/METEOR/代码地址(非官方实现,实现的是项目地址中的1.5版本):https://github.com/tylin/coco-caption项目由CMU提供,项目地址包含了代码和最新版本以及之前老版本的meteor评价算法。下面记录一下最初版也就是《The Meteor Metri for Automatic Evaluation of Machine Translation》的计算思路。首先说明一下常用的BLEU的缺点,BL原创 2021-10-24 19:48:59 · 767 阅读 · 0 评论 -
Image captioning评价方法之BLEU (bilingual evaluation understudy)
文章地址:BLEU: a Method for Automatic Evaluation of Machine Translation代码地址(非官方):https://github.com/tylin/coco-caption该评价方法是IBM发表于ACL2002上。从文章命名可以看出,文章提出的是一种双语评价替补,"双语评价(bilingual evaluation)"说明文章初衷提出该评价指标是用于机器翻译好坏的评价指标,"替补(understudy)"说明文章想提出一种有效的评价指标进而帮助人类原创 2021-10-24 19:46:07 · 3208 阅读 · 0 评论 -
Record something about DL
这篇文章算是DL实践杂谈吧,主要是想把自己模型调优和复现算法遇到的一些坑总结一下(里面的一行字可能是我当时花费了一周甚至更长时间得到的总结),希望能对读者有所帮助。一、熟悉数据模型是数据的浓缩版----Andrew NG的二八定律,即80%的数据+20%的=更好的AI 对于新上手的一任务来说,需要熟悉你的数据。拿检测任务来说,可以写个可视化代码查看标注是否合理,查看一下待检测物体的大小分布情况(例如anchor的预设),查看一下图片大小,查看类别分布情况(例如是否有极端的分布)等等。二、算法选型原创 2021-09-10 20:44:50 · 665 阅读 · 1 评论 -
《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》算法详解
论文: Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks官方代码(caffe): https://github.com/ZhaofanQiu/pseudo-3d-residual-networks非官方(pytorch): https://github.com/qijiezhao/pseudo-3d-pytorch由微软和中科大提出被ICCV2017收录一、核心创新提出将3D卷积进行时间和空间的.原创 2021-08-08 22:24:54 · 957 阅读 · 0 评论 -
《Learning Spatiotemporal Features with 3D Convolutional Networks》算法详解
论文: Learning Spatiotemporal Features with 3D Convolutional Networks官方代码(caffe): http://vlg.cs.dartmouth.edu/c3d/由Facebook和Dartmouth学院提出被ICCV2015收录一、核心创新网络全部使用3D卷积和3D池化方便在不同的任务中使用,如动作识别、相同动作判断、动态场景识别等网络简单且高效二、 3D卷积及网络的探索2.1 3D卷积与3D池化2.2 卷积核时间.原创 2021-08-08 22:18:18 · 468 阅读 · 0 评论 -
《Temporal Pyramid Network for Action Recognition》算法详解
文章地址:《Temporal Pyramid Network for Action Recognition》代码地址:https://github.com/decisionforce/TPN该文章发表于CVPR2020。文章认为在动作识别领域,视觉速度(visual tempo)是很重要的信息。现有网络主要是通过控制采样不同的输入来完成visual tempo信息的提取,但是这样做会导致需要多入输入来实现。文章提出在feature层面来处理visual tempo信息,文章提出的结构不管是对于2D还是原创 2021-08-08 21:59:13 · 955 阅读 · 0 评论 -
《Global2Local》算法论文详解
《Global2Local》算法论文详解文章地址:《Global2Local: Effificient Structure Search for Video Action Segmentation》代码地址:https://github.com/ShangHua-Gao/G2L-search文章来自于南开大学程明明团队和腾讯、中科院,文章发表在CVPR2021。文章认为当前的视频动作分割算法中,网络的感受野是很重要的,大的感受野有利于观察long-term relations,而小的感受野有利于提取原创 2021-06-12 13:50:09 · 620 阅读 · 1 评论 -
《MS-TCN++》算法详解
论文地址: 《MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation 》代码地址:https://github.com/sj-li/MS-TCN2从名字可以看出在该文章之前还有一篇《MS-TCN》发表于CVPR2019,MS-TCN在本文的前部分会被介绍。本文《MS-TCN++》则是发表于TPAMI2020。一、MS-TCN网络结构文章的网络结构是由多个自己提出的子模块组成的,下面先分别介绍各个子模块的原创 2021-06-06 20:49:40 · 3334 阅读 · 10 评论 -
《TEA: Temporal Excitation and Aggregation for Action Recognition》算法详解
文章地址:《TEA: Temporal Excitation and Aggregation for Action Recognition》代码地址:暂无该文章发表于CVPR2020,文章认为对于视频动作识别需要将视频的short-range信息和long-range信息都利用起来。所以文章提出了两个模块,motion excitation (ME) module用来提取short-range信息, multiple temporal aggregation (MTA) module用来提取long-r原创 2021-06-05 16:15:12 · 1147 阅读 · 0 评论 -
《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》论文详解
文章链接:Temporal Segment Networks: Towards Good Practices for Deep Action Recognition官方代码链接(caffe):https://github.com/yjxiong/temporal-segment-networks该文章发表在ECCV2016上,该文章可以认为是双流法的改进,更好的利用了更长的时序信息。不了解双流法的可以参考博客《Two-Stream Convolutional Networks for Action Re原创 2021-03-06 09:16:10 · 585 阅读 · 0 评论 -
《Two-Stream Convolutional Networks for Action Recognition in Videos》算法详解
论文链接:Two-Stream Convolutional Networks for Action Recognition in Videos文章由牛津大学VGG实验室提出,收录于NIPS2014。该文章认为视频的信息可以分为空间信息和时间信息,所以该文章提出了一种利用普通rgb图像(代表空间信息)和光流信息(代表时间信息)来解决视频的动作分类问题。首先需要了解什么是光流,请看博客《光流估计——从传统方法到深度学习》一、网络结构网络有两种输入,一种是代表空间信息的视频帧,一种是代表时间信息的特征帧原创 2021-03-03 21:01:59 · 452 阅读 · 4 评论 -
Faster R-CNN的参数设计细节
之前有篇关于原理的文章(Faster R-CNN文章详细解读),该文章讲述了网络的设计原理,但是具体实现还有很多细节,比如RPN层在推断的时候选了多少候选框,怎么将得到的候选框分配给FPN层的各个层进行特征的提取,Faster R-CNN的正负样本选择方式等等细节,下面来给出一些记录。下面是根据detectron2中带FPN结构的Faster R-CNN来解释的,FPN规定的层中都会跟一个RPN,具体结构如下图所示。1. RPN层的ground truth中正负样本怎么定义的?生成的所有的ancho原创 2020-12-29 19:54:09 · 1506 阅读 · 0 评论 -
yolov3算法详解
YOLOv3: An Incremental Improvement按照原文的说法,它其实是一篇技术试验的报告。本文通过一些试验来改进yolo方法。检测框的预测这部分的预测和yolov2是一样的,详情可以参考yolov2算法详解。类别预测文章采用的是多标签的分类方法,文章认为softmax对于好的预测结果的获取不一定是有帮助的。训练的时候类别的loss采用的是binary cross-entropy loss。多尺度框的预测对于多尺度框的预测类似于有FPN结构的fastrcnn,不同的featu原创 2020-10-08 20:03:06 · 1168 阅读 · 0 评论 -
yolov2算法详解
yolov2原文叫《YOLO9000:Better, Faster, Stronger》yolov2相对于yolo来说的优势就是文章题目所说的,更好,更快,更强。下面来看看yolov2如何达到这个目的的。一、如何更快1. 使用BN随着BN的提出,且在各种网络大量的引入,yolov2引入了BN(batch normalization)。文章还发现BN不仅改善了网络性能,还有一定的正则化的作用,因此文章移除了yolo中使用的dropout操作。关于BN具体的计算,可以参考BN及其改进算法2. 输入分原创 2020-09-30 18:19:14 · 2185 阅读 · 1 评论 -
DBNet论文详解
原文链接:https://arxiv.org/pdf/1911.08947.pdf原文代码链接:https://github.com/MhLiao/DB目前文字检测算法可以大致分为两类:基于回归的方法和基于分割的方法。一般基于分割的方法流程是下图蓝色箭头所示:先通过网络输出图片的文本分割结果(概率图,每个像素为是否是正样本的概率),使用预设的阈值将分割结果图转换为二值图,最后使用一些聚合的操作例如连通域将像素级的结果转换成检测结果。从上述描述可知,因为有一个使用阈值来判定前景和背景的操作,这个操作是原创 2020-09-26 14:05:59 · 20651 阅读 · 18 评论 -
神经网络参数量计算
这篇文章主要是记录一下神经网络的参数量大致估算方法,计算过程利用的是mobilenet-v2来举例说明,如果对mobilenet-v2不太了解,可以参考文章mobilenet-v1和mobilenet-v2详解。关于卷积参数计算的方式假设输入feature(如果是第一层就是图片了)的维度为Ninput×Cinput×Hinput×WinputN_{input} \times C_{input} \times H_{input} \times W_{input}Ninput×Cinput×Hinput原创 2020-09-06 12:03:51 · 4208 阅读 · 2 评论 -
CBN(Cross-Iteration Batch Normalization)论文详解
原文链接:Cross-Iteration Batch Normalization代码链接:https://github.com/Howal/Cross-iterationBatchNorm随着BN的提出,现有的网络基本都在使用。但是在显存有限或者某些任务不允许大batch(比如检测或者分割任务相比分类任务训练时的batchsize一般会小很多)的情况下,BN效果就会差很多,如下图所示,当batch小于16时分类准确率急剧下降。为了改善小batch情况下网络性能下降的问题,有各种新的normalize原创 2020-08-19 21:03:42 · 1431 阅读 · 2 评论 -
安装detectron2的docker环境
从dockerhub上拉pytorch的docker,这里要注意的是版本问题,本机安装的驱动要与docker中的cuda版本对应上,对应关系链接dockerhub上的几种类型:a. base: starting from CUDA 9.0, contains the bare minimum (libcudart) to deploy a pre-built CUDA application. Use this image if you want to manually select which .原创 2020-08-17 20:53:01 · 1118 阅读 · 0 评论 -
【转】一文打尽目标检测NMS——精度提升篇
众所周知,非极大值抑制NMS是目标检测常用的后处理算法,用于剔除冗余检测框,本文将对可以提升精度的各种NMS方法及其变体进行阶段性总结。总体概要:对NMS进行分类,大致可分为以下六种,这里是依据它们在各自论文中的核心论点进行分类,这些算法可以同时属于多种类别。分类优先:传统NMS,Soft-NMS (ICCV 2017)定位优先:IoU-Guided NMS (ECCV 2018)加权平均:Weighted NMS (ICME Workshop 2017)方差加权平均:Softer-NMS (转载 2020-07-29 21:44:03 · 661 阅读 · 0 评论 -
ATSS论文详解
《Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection》发表于CVPR2020代码地址:https://github.com/sfzhang15/ATSS现有目标检测的主流算法中,主要分为两阶段和一阶段。而一阶段的算法中,又分为基于anchor和anchor-free的算法。在FCOS(一种anchor-free的目标检测算法,想详细了解请看《FCOS算原创 2020-05-26 22:59:57 · 1680 阅读 · 0 评论 -
《R-FCN: Object Detection via Region-based Fully Convolutional Networks》论文详解
《R-FCN: Object Detection via Region-based Fully Convolutional Networks》作者公布的代码地址(caffe版):https://github.com/daijifeng001/r-fcn这篇文章主要目的还是想再在fasterrcnn的基础上,加快物体检测的速度,但是网络加速时需要注意,物体检测其实是有两个目标的,一个是检测一个是...原创 2020-04-29 21:56:04 · 476 阅读 · 0 评论