计算机视觉
文章平均质量分 84
阿巴阿巴~
Y.Z.Y.
你所热爱的一切 都将成为你的天赋 亦是你生命的意义所在!
展开
-
目标检测——YOLOv8(十四)
YOLOv8 是 ultralytics 公司在 2023 年 1月 10 号开源的 YOLOv5 的下一个重大更新版本,目前支持图像分类、物体检测和实例分割任务。不过 ultralytics 并没有直接将开源库命名为 YOLOv8,而是直接使用 ultralytics 这个词,原因是 ultralytics 将这个库定位为算法框架,而非某一个特定算法,一个主要特点是可扩展性。原创 2023-04-24 11:54:24 · 1063 阅读 · 0 评论 -
目标检测——YOLOv7(十三)
继美团发布YOLOV6之后,YOLO系列原作者也发布了YOLOV7。主要从两点进行模型的优化:模型结构重参化和动态标签分配。YOLOv7的特点是快!相同体量下比YOLOv5精度更高,速度快120%。原创 2023-04-12 21:09:49 · 2600 阅读 · 0 评论 -
目标检测——YOLOv6(十二)
YOLOv6 是美团视觉智能部研发的一款目标检测框架,致力于工业应用。这里简单记录一下,方便以后回顾。在部署方面,YOLOv6 支持 GPU(TensorRT)、CPU(OPENVINO)、ARM(MNN、TNN、NCNN)等不同平台的部署,极大地简化工程部署时的适配工作。原创 2023-04-07 20:48:50 · 989 阅读 · 0 评论 -
轻量级网络——MobileNetV1~V3
简介:随着神经网络结构越来越复杂,预测和训练需要的硬件资源也逐步增多,往往只能在高算力的服务器中运行深度学习神经网络模型。移动设备因硬件资源和算力的限制,很难运行复杂的深度学习网络模型。So,业内提出了SqueezeNet、ShuffleNet、NasNet、MnasNet以及MobileNet等轻量级网络模型。这些模型使移动终端、嵌入式设备运行神经网络模型成为可能。而MobileNet在轻量级神经网络中较具代表性。原论文地址:MobileNetV1:https://arxiv.org/pdf/170原创 2021-01-25 11:00:27 · 762 阅读 · 0 评论 -
目标检测——RefineDet(十一)
简介:RefineDet——《single-shot refinement neural network for object detection》是CVPR2018的论文,大致上是SSD和RPN、FPN的结合,可以在保持SSD高效的前提下提高检测效果。主要思想:一方面引入two stage类型的object detection算法中对box的由粗到细的回归思想,另一方面引入类似FPN网络的特征融合操作用于检测网络,可以有效提高对小目标的检测效果。原论文地址:https://arxiv.org/pdf/原创 2020-11-11 19:05:22 · 924 阅读 · 0 评论 -
目标检测——RetinaNet(十)
简介:这篇paper《RetinaNet:Focal Loss for Dense Object Detection》获得了ICCV 2017的Best,创新点就是Focal Loss了,其主要贡献就是解决了one-stage算法中正负样本的比例严重失衡的问题,不需要改变网络结构,只需要改变损失函数就可以获得很好的效果。原论文地址:https://arxiv.org/pdf/1708.02002.pdf网络结构:由上图可以看出结构比较简单,基础网络使用的是Resnet,然后在不同尺度的featur原创 2020-11-03 15:25:03 · 592 阅读 · 1 评论 -
目标检测——SSD(九)
简介:前面已经总结了RCNN系列和YOLO系列,那么SSD同样是目标检测领域的经典论文,后续很多论文以此为基础,所以还是有必要来梳理一下。SSD全名Single Shot MultiBox Detector,对于Faster R-CNN,先通过CNN得到候选框,然后进行分类和回归,而YOLO和SSD可以一步完成检测;对于YOLO,SSD采用CNN来直接进行检测,而不是像YOLO那样采用全连接层后做检测。原论文地址:https://arxiv.org/pdf/1512.02325.pdf一、网络结构:原创 2020-10-29 09:52:41 · 616 阅读 · 1 评论 -
目标检测——YOLOv5(八)
简介:YOLOv4 (2020.4.23)发布还不到 2 个月,很多人都没来及仔细看。。。突然 YOLOv5 (2020.6.10)又双叕来了。。。YOLOv5的大小仅有 27 MB,而使用 darknet 架构的 YOLOv4 有 244 MB,对比之下小了近 90%,同时在准确度方面又与 YOLOv4 基准相当。Github地址:https://github.com/ultralytics/yolov5作者给的算法性能如下图:网络结构:改编自知乎大佬的一张图:创新点:1、Input:原创 2020-08-27 17:43:23 · 15706 阅读 · 1 评论 -
计算机视觉里的attention总结
简介:注意力机制(attention)最早应用应该是在机器翻译上,近年来又在计算机视觉(CV)任务中火了起来。CV中的注意力机制的主要是想让神经网络着重学习感兴趣的地方。前言:注意力有两种,一种是软注意力(soft attention),另一种则是强注意力(hard attention)。1、软注意力更关注区域或者通道,而且软注意力是确定性的注意力,学习完成后直接可以通过网络生成,最关键的地方是软注意力是可微的,这是一个非常重要的地方。可以微分的注意力就可以通过神经网络算出梯度并且前向传播和后向反馈原创 2020-08-07 09:31:34 · 788 阅读 · 0 评论 -
目标检测——YOLOv4(七)
简介:随着深度学习的发展,目前已经出现了很多算法(或者训练技巧,tricks)来提升神经网络的准确率。在实际测试中评价一个算法的好坏优劣主要看两点,一是能否在大规模的数据集中起作用(work),二是是否有理论依据。...原创 2020-07-23 19:59:22 · 2770 阅读 · 0 评论 -
目标检测——YOLOv3(六)
简介在前面已经介绍了很多目标检测算法,特别是R-CNN为代表两阶段算法系列。但是两阶段算法的速度太慢是一个不容忽视的问题,对于实时性要求很高的场景非常致命。而YOLO——you only look one的诞生就是为了解决识别速度的问题,它直接在输出层回归bounding box的位置和bounding box所属类别,从而实现one-stage。原论文地址:https://arxiv.org/pdf/1804.02767.pdfYOLOv3的前世今生YOLOv1 (2015,CVPR):主干网原创 2020-07-14 15:21:44 · 1754 阅读 · 0 评论 -
目标检测——R-FCN(五)
简介R-FCN是NIPS 2016的best paper,主要贡献在于解决了“分类网络的位置不敏感性”与“检测网络的位置敏感性”之间的矛盾,在提升精度的同时利用“position-sensitive score maps”提升了检测速度。原论文地址:https://arxiv.org/abs/1605.06409一、整体框架从上图可以看出,整个网络的组成为:一个CNN特征提取器(如Res...原创 2020-01-07 17:44:54 · 533 阅读 · 0 评论 -
语义分割——PSPNet(五)
简介Pyramid Scene Parsing Network(PSPNet)首次出现在2016年的ImageNet比赛中,并拿下scene parsing任务的冠军。PSPNet在FCN的基础上引入更多上下文信息是通过全局均值池化操作和特征融合实现的,因此特征呈金字塔结构,所以也叫金字塔池化。PSPNet论文地址:https://arxiv.org/pdf/1612.01105.pdfPS...原创 2019-12-16 11:55:49 · 742 阅读 · 0 评论 -
语义分割——SegNet(四)
简介补充一下2015年发表的SegNet模型,它是由剑桥大学团队开发的图像分割的开源项目,该项目可以对图像中的物体所在区域进行分割。SegNet是在FCN的语义分割任务基础上,搭建encoder-decoder对称结构,实现端到端的像素级别图像分割。其新颖之处在于解码器对其较低分辨率的输入特征图进行上采样的方式。SegNet论文地址:https://arxiv.org/abs/1511.005...原创 2019-11-26 13:30:49 · 2746 阅读 · 1 评论 -
目标检测——Mask R-CNN(四)
简介Mask R-CNN是ICCV 2017的best paper,彰显了机器学习计算机视觉领域在2017年的最新成果。在机器学习2017年的最新发展中,单任务的网络结构已经逐渐不再引人瞩目,取而代之的是集成,复杂的多任务网络模型。文章的主要思路就是把原有的Faster R-CNN进行扩展,添加一个分支使用现有的检测对目标进行并行预测。原论文地址:http://cn.arxiv.org/pdf...原创 2019-09-19 22:08:35 · 581 阅读 · 0 评论 -
目标检测——Faster R-CNN(三)
简介经过R-CNN和Fast R-CNN的积淀,Ross B. Girshick在2016年提出了新的Faster R-CNN,在结构上,Faster R-CNN已经将特征抽取(feature extraction),proposal提取,bounding box regression(rect refine),classification都整合在了一个网络中,使得综合性能有较大提高,在检测速度...原创 2019-06-02 23:26:11 · 675 阅读 · 0 评论 -
目标检测——Fast R-CNN(二)
简介R-CNN的进阶版Fast R-CNN就是在R-CNN的基础上采纳了Spatial Pyramid Pooling(SPP) 方法,对R-CNN作了改进,使得性能进一步提高。《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》论文地址:https://arxiv.org/pdf/140...原创 2019-05-30 21:32:47 · 434 阅读 · 0 评论 -
语义分割——U-Net++(三)
这篇论文《UNet++: A Nested U-Net Architecture for Medical Image Segmentation》是2018年6月的文章,DLMIA2018会议。文章对Unet改进的点主要是skip connection。转载 2019-05-22 10:43:39 · 8940 阅读 · 1 评论 -
登峰造极__边界均衡生成对抗网络(BEGAN)(七)
BEGAN是Google在17年上半年出的一篇论文,此论文对GAN做了进一步的改进,提出了一种新的评价生成器生成质量的方式,使GAN即使使用很简单的网络,不加一些训练trick比如BN,minibatch,使用SELU激活函数等等,也能实现很好的训练效果,完全不用担心模式崩溃(model collapse)和训练不平衡的问题。原创 2019-04-21 14:48:48 · 1924 阅读 · 0 评论 -
一代宗师__循环一致性生成对抗网络(CycleGAN)(八)
简介CycleGAN是在2017年发表的一篇文章《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》,同一时期还有两篇非常类似的DualGAN和DiscoGAN,简单来说,它们的功能就是:自动将某一类图片转换成另外一类图片。传统的GAN是单向生成,而CycleGAN是互相生成,网络是个环...原创 2019-04-22 13:22:16 · 16968 阅读 · 2 评论 -
CNN发展简史——LeNet(一)
CNN简史首先来回顾一下CNN发展的历史,为什么要做这个总结呢?除了加深我们对CNN框架的理解之外,沿着CNN发展的历史进程走一遍也是非常有趣的事。假如你不研究历史,你肯定不知道打火机居然早于火柴被发明,而ReLU比tanh更早被应用在神经网络中。很久很久以前:神经网络这一概念最早是生物界提出的,而人工智能界的神经网络很大程度上是在模拟人类的神经元。影响到CNN起源的相关研究是有关视觉皮层的...原创 2019-04-26 11:51:31 · 9803 阅读 · 2 评论 -
炉火纯青__深度卷积生成对抗网络(DCGAN)(四)
近年来,深度卷积神经网络(CNN)的监督学习在计算机视觉应用上发挥巨大的作用,然而CNN的非监督学习只受到较少的关注。我们希望有助于缩小CNN在监督学习和非监督学习成功的差距,于是提出了一种叫做深度卷积生成对抗网络的CNN,它具有一定的结构约束,展示了其在非监督学习方向上强有力的候选方案。原创 2019-04-14 19:26:17 · 946 阅读 · 0 评论 -
渐入佳境__距离生成对抗网络(WGAN)(六)
简介自从2014年Ian Goodfellow提出以来,GAN就存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。从那时起,很多论文都在尝试解决,但是效果不尽人意,比如最有名的一个改进DCGAN依靠的是对判别器和生成器的架构进行实验枚举,最终找到一组比较好的网络架构设置,但是实际上是治标不治本,没有彻底解决问题。于是WGAN的作者Martin Arjovsky在...原创 2019-04-17 22:00:07 · 2266 阅读 · 0 评论 -
登堂入室__生成对抗网络的信息论扩展(infoGAN)(五)
InfoGAN是生成对抗网络信息理论的扩展,能够以完全非监督的方式得到可分解的特征表示。它可以最大化隐含(latent)变量子集与观测值之间的互信息(mutual information),并且发现了有效优化互信息目标的下界。原创 2019-04-15 16:04:11 · 655 阅读 · 0 评论 -
CNN发展简史——AlexNet(二)
简介进入到新世纪,第一个突破并不是在算法上的,而是工程上。2006年,研究人员成功利用GPU加速了CNN,相比CPU实现快了4倍。虽然这里没有算法的提升,但是其意义可能比一般的算法提升更大。..(-2012-)AlexNet直到2012年,这一年AlexNet的出现可以说是标志着神经网络的复苏和深度学习的崛起。...原创 2019-04-27 15:04:23 · 3077 阅读 · 0 评论 -
CNN发展简史——DenseNet(六)
2017年提出一种DenseNet(Dense Convolutional Network),主要还是和ResNet及Inception网络做对比,思想上有借鉴,但却是全新的结构,网络结构并不复杂,却非常有效!原创 2019-05-02 14:50:49 · 2843 阅读 · 1 评论 -
语义分割——FCN(一)
简介:在计算机视觉领域,全卷积网络(FCN)是比较有名的图像分割网络。...原创 2019-05-04 14:44:44 · 6156 阅读 · 0 评论 -
语义分割——U-Net(二)
U-Net通俗来讲也是卷积神经网络的一种变形,主要其结构经论文作者画出来形似字母U,因而得名U-Net。原创 2019-05-05 00:12:56 · 2453 阅读 · 0 评论 -
CNN发展简史——VGG(三)
简介VGGNet是2014年ILSVRC竞赛的第二名,第一名是GoogLeNet(谷歌为了纪念LeNet,所以用的大写L)。先讲VGG,因为它这个模型在多个迁移学习任务中的表现要优于GoogLeNet。而且,从图像中提取CNN特征,VGG模型是首选算法。它的缺点在于,参数量有140M之多,需要更大的存储空间。但是这个模型很有研究价值。原论文地址:https://arxiv.org/pdf/14...原创 2019-04-29 14:07:37 · 4217 阅读 · 0 评论 -
CNN发展简史——GoogLeNet(四)
简介GoogLeNet是2014年 ILSVRC 冠军模型,top-5 错误率 6.7% ,GoogLeNet做了更大胆的网络上的尝试而不像vgg继承了lenet以及alexnet的一些框架,该模型虽然有22层,但参数量只有AlexNet的1/12。原论文地址:https://arxiv.org/pdf/1409.4842.pdf(-2014-)GoogLeNet:GoogLeNet论文指...原创 2019-04-30 00:17:32 · 1708 阅读 · 0 评论 -
CNN发展简史——ResNet(五)
简介深度残差网络是2015年提出的深度卷积网络,一经出世,便在ImageNet中斩获图像分类、检测、定位三项的冠军。原创 2019-04-30 22:26:47 · 5292 阅读 · 0 评论 -
目标检测——R-CNN(一)
简介R-CNN的全称是Region-CNN,它可以说是是第一个成功将深度学习应用到目标检测上的算法。它是2014年发布的一篇论文,题目是 《Rich feature hierarchies for accurate oject detection and semantic segmentation》,通俗地来讲就是一个用来做目标检测和语义分割的神经网络。原论文地址:https://arxiv....原创 2019-05-25 16:11:53 · 1019 阅读 · 0 评论 -
融会贯通__条件生成对抗网络(cGAN)(三)
简介2014年,Goodfellow提出了GAN,在论文的最后他指出了GAN的优缺点以及未来的研究方向和拓展,其中他提到的第一点拓展就是:A conditional generative model p(x|c) can be obtained by adding c as input to both G and D。这是因为这种不需要预先建模的方法缺点是太过自由了,基于简单 GAN 的方式就...原创 2019-04-13 15:43:23 · 1458 阅读 · 0 评论