CV技术总结
文章平均质量分 90
CV技术指南(公众号)
博客原创均来源于公众号CV技术指南文章
展开
-
CVPR 2022 | 网络中批处理归一化估计偏移的深入研究
批归一化(BN)是深度学习中的一项重要技术。在训练过程中使用小批量统计量对激活进行规范化,而在推理过程中使用估计的总体统计量进行规范化。本文主要研究总体统计量的估计问题。作者定义了BN的估计偏移幅度,以量化衡量其估计的种群统计数据与预期的差异。作者的主要观察是,由于网络中BN的叠加,估计偏移可能会累积,这对测试性能有不利影响。...原创 2022-07-26 17:10:44 · 646 阅读 · 0 评论 -
YOLO系列梳理(九)初尝新鲜出炉的YOLOv6
近日,美团视觉智能部开源了YOLOv6的框架。YOLOv4、YOLOv5更多是注重于数据增强,而对网络结构的改动则比较少。和YOLOv4、YOLOv5不同,YOLOv6对网络结构的改动还是蛮大的。原创 2022-06-26 21:23:29 · 5250 阅读 · 3 评论 -
计算机视觉中的论文常见单词总结
之前的文章《计算机视觉中的高效阅读论文的方法总结》中提到了如何掌握阅读英文文献的能力,我就是按照这个方法来做的,下面是我在执行过程中记录的单词。差不多在背完这些单词后,我基本就没再用过翻译软件了,虽然看论文的过程中,仍然存在一些不认识的单词,但基本不影响阅读和理解。这所有的单词都来源于我看过的论文,为了方便大家记忆,在本文编辑的时候我稍微把一部分相近的单词放到了一起。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。throughput 通量 granular原创 2022-06-17 12:13:33 · 1199 阅读 · 0 评论 -
神经网络各个部分的作用 & 彻底理解神经网络
这些题目来自知识星球【CV技术指南(免费版)】的日常作业欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。1. 神经网络的层数是如何数的?我们说的网络越深,模型效果越好,指的是可训练参数越多,模型的特征提取能力或表示能力更好。因此,神经网络的层数只与可训练参数的层数有关,层数等于卷积层+全连接层数量。BN层、池化层、Flatten层都不算在内。例如下方的VGG-16。层数为:2+2+3+3+3(卷积层) + 3(全连接)。中间5层最..原创 2022-05-31 17:09:41 · 3416 阅读 · 1 评论 -
从零搭建Pytorch模型教程(五)编写训练过程--一些基本的配置
前言本文介绍了训练日志的配置方法,为什么需要设置随机数种子,设置随机数种子的方法,加载数据的配置,学习的配置和调整方法,损失函数的配置和自定义损失函数的写法。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。训练日志的配置训练日志是用于保存训练过程中的一些信息,方便事后查看模型的训练情况。首先是准备好基本的配置。import loggingdef train_logger(num): logger = logging.getL.原创 2022-05-25 21:16:56 · 722 阅读 · 0 评论 -
从零搭建Pytorch模型教程(四)编写训练过程--参数解析
前言训练过程主要是指编写train.py文件,其中包括参数的解析、训练日志的配置、设置随机数种子、classdataset的初始化、网络的初始化、学习率的设置、损失函数的设置、优化方式的设置、tensorboard的配置、训练过程的搭建等。由于篇幅问题,这些内容将分成多篇文章来写。本文介绍参数解析的两种方式。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。一个模型中包含众多的训练参数,如文件保存目录、数据集目录、学习率、epoch数量、模块中的参.原创 2022-05-25 21:10:29 · 1584 阅读 · 0 评论 -
NMS技术总结(NMS原理、多类别NMS、NMS的缺陷、NMS的改进思路、各种NMS方法)
前言本文介绍了NMS的应用场合、基本原理、多类别NMS方法和实践代码、NMS的缺陷和改进思路、介绍了改进NMS的几种常用方法、提供了其它不常用的方法的链接。本文很早以前发过,有个读者评论说没有介绍多类别NMS让他不满意,因此特来补充。顺便补充了NMS的缺点和改进思路。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。Non-Maximum Suppression(NMS)非极大值抑制。从字面意思理解,抑制那些非极大值的元素,保留极大值元素。...原创 2022-05-08 16:21:56 · 19779 阅读 · 3 评论 -
计算机视觉入门路线
给大家写了一个计算机视觉入门路线,这个路线一共分为十一步,每一步指明了学习内容,学习程度,学习方式和学习目的,并指明了各个内容的重难点。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文主要介绍计算机视觉从入门到具备自主学习能力的一个学习路线。在介绍具体内容前,有必要先说明现在计算机视觉的情况。计算机视觉是一个需要会的内容特别多,基础要求牢固,知识面要求足够广的领域。计算机视觉领域有一个最大的问题在于它使用的方法具有黑盒的特点,一个原创 2022-04-20 22:01:24 · 4264 阅读 · 2 评论 -
Attention Mechanism in Computer Vision
前言本文系统全面地介绍了Attention机制的不同类别,介绍了每个类别的原理、优缺点。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。概述Attention机制目的在于聚焦有用的信息,并减少不重要信息的比重。Attention机制可以分为6大类,包括4个基础类别和2个组合类别。4个基础类别分别是通道注意力(channel attention),空间注意力(spatial attention),时间注意力(temporal attent..原创 2022-04-17 12:46:41 · 1922 阅读 · 0 评论 -
从零搭建Pytorch模型教程(三)搭建Transformer网络
前言本文介绍了Transformer的基本流程,分块的两种实现方式,Position Emebdding的几种实现方式,Encoder的实现方式,最后分类的两种方式,以及最重要的数据格式的介绍。本文来自公众号CV技术指南的技术总结系列欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。在讲如何搭建之前,先回顾一下Transformer在计算机视觉中的结构是怎样的。这里以最典型的ViT为例。如图所示,对于一张图像,先将其分割成Nx...原创 2022-04-15 20:42:13 · 4872 阅读 · 2 评论 -
一份热力图可视化代码使用教程
前言特征图可视化与热力图可视化是论文中比较常用的两种可视化方法。上一篇文章《一份可视化特征图的代码》介绍了特征图可视化的代码,本篇将对如何进行热力图可视化做一个使用说明。本文介绍了CAM、GradCAM的原理和缺陷,介绍了如何使用GradCAM算法实现热力图可视化,介绍了目标检测、语义分割、transformer模型等其它类型任务的热力图可视化。本文来自公众号CV技术指南的技术总结系列欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。..原创 2022-03-30 23:37:37 · 7478 阅读 · 8 评论 -
从零搭建Pytorch模型教程(二)搭建网络
前言上一篇《从零搭建Pytorch模型教程(一)数据读取》中介绍了classdataset的几个要点,由哪些部分组成,每个部分需要完成哪些事情,如何进行数据增强,如何实现自己设计的数据增强。然后,介绍了分布式训练的数据加载方式,数据读取的整个流程,当面对超大数据集时,内存不足的改进思路。本文介绍了如何搭建神经网络,构建网络的几种方式,前向传播的过程,几种初始化方式,如何加载预训练模型的指定层等内容。本文以CNN为例,下一篇介绍如何搭建Transformer网络。本文来自公众号CV技术指南的.原创 2022-03-23 12:43:45 · 2450 阅读 · 0 评论 -
一份可视化特征图的代码
前言本文给大家分享一份我用的特征图可视化代码。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。写在前面的话特征图可视化是很多论文所需要做的一份工作,其作用可以是用于证明方法的有效性,也可以是用来增加工作量,给论文凑字数。具体来说就是可视化两个图,使用了新方法的和使用之前的,对比有什么区别,然后看图写论文说明新方法体现的作用。吐槽一句,有时候这个图 论文作者自己都不一定能看不懂,虽然确实可视化的图有些改变,但并不懂这个改变说明..原创 2022-03-09 11:55:07 · 5530 阅读 · 6 评论 -
从零搭建Pytorch模型教程(一)数据读取
前言本文介绍了classdataset的几个要点,由哪些部分组成,每个部分需要完成哪些事情,如何进行数据增强,如何实现自己设计的数据增强。然后,介绍了分布式训练的数据加载方式,数据读取的整个流程,当面对超大数据集时,内存不足的改进思路。本文延续了以往的写作态度和风格,即便是自己知道的内容,也仍然在写之前看了很多的文章来保证内容的正确性和全面性,因此写得极累,耗费时间较长。若有读者看完后觉得有所帮助,文末可以赞赏一点。文末扫描二维码关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技..原创 2022-03-04 10:25:57 · 3491 阅读 · 0 评论 -
计算机视觉中的神经网络可视化工具与项目
前言本文介绍了一些关于神经网络可视化的项目,主要有CNN解释器,特征图、卷积核、类可视化的一些代码和项目,结构可视化工具,网络结构手动画图工具。本文来自公众号CV技术指南的技术总结系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读CNN解释器这是一个中国博士发布的名叫CNN解释器的在线交互可视化工具。主要对于那些初学深度学习的小白们 理解关于神经网络是如何工作很有帮助,如卷积过程,ReLU过程,平均池化过程,中间每一层的特征图的样子,都可以...原创 2022-02-04 10:24:28 · 3087 阅读 · 0 评论 -
关于快速学习一项新技术或新领域的一些个人思维习惯与思想总结
前言本文尝试谈谈笔者对于学一项新技术、入门一个新领域的一些看法和方法。在本文会谈到一些思维习惯层面的、思想层面的内容,最后会给一个从零入门学习pytorch的方法作为例子。写在前面的话我写文章有一个特点,喜欢先把内容的重要性给写出来,读者才能明确为什么要看它,要怎样去看它。在我看来,这比正文更重要,也更难写好。大学与中小学有着完全不同的学习模式。在中小学时期,有老师上课详细介绍内容,并解答任何疑问。学习过程中,学习者始终不用去思考学习路线、学习时间、学习重点,学习目的也非常明确,应..原创 2022-01-15 00:16:13 · 6375 阅读 · 0 评论 -
计算机视觉--CV技术指南文章汇总
今年是进入计算机视觉领域的第四年,做公众号的第一年,写了不少原创文章,从国外博客上翻译了不少我认为比较不错的文章,也从知乎上找了不少不错的文章在经作者授权后转载到公众号。整体上来说,这一年基本保持初心,始终在做一个专注于计算机视觉技术总结、最近技术跟踪、最新论文分享和经典论文解读的公众号。公众号从未采用夸大的标题,宁可不更,也不会强行找一篇无用文章、无用新..原创 2022-01-15 00:10:29 · 2930 阅读 · 0 评论 -
资源分享 | PyTea:不用运行代码,静态分析pytorch模型的错误
前言本文介绍一个Pytorch模型的静态分析器 PyTea,它不需要运行代码,即可在几秒钟之内扫描分析出模型中的张量形状错误。文末附使用方法。本文转载自机器之心编辑:CV技术指南关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。张量形状不匹配是深度神经网络机器学习过程中会出现的重要错误之一。由于神经网络训练成本较高且耗时,在执行代码之前运行静态分析,要比执行然后发现错误快上很多。由于静态分析是在不运行代码的前提下进行的,因此可以帮助软件开发人员、质量.转载 2021-12-23 20:34:40 · 235 阅读 · 0 评论 -
计算机视觉中的transformer模型创新思路总结
前言本文回顾了ViT的结构,总结了计算机视觉中的transformer的主要改进思路:改进分块,改进位置编码,改进Encoder,增加Decoder。每个思路下都介绍了相关的论文,介绍了这些论文的提出出发点和改进思路。本文的目的不在于介绍transformer现在有哪些模型,而在于学习借鉴别人发现问题并改进的思路,从而在自己方向上提出合适且合理的改进。本文来自公众号CV技术指南的论文分享系列,技术总结系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。.原创 2021-12-03 18:33:10 · 1758 阅读 · 0 评论 -
2021-视频监控中的多目标跟踪综述
本文来自一篇2021的论文,论文简要回顾了现有的SOTA模型和MOT算法、对多目标跟踪中的深度学习进行了讨论、介绍了评估方面的指标、数据集和基准结果,最后给出了结论。本文来自公众号CV技术指南的技术总结系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。视频监控中的多目标跟踪(MTT)是一项重要而富有挑战性的任务,由于其在各个领域的潜在应用而引起了研究人员的广泛关注。多目标跟踪任务需要在每帧中单独定位目标,这仍然是一个巨大的挑战,因为目标的外观会立即发生原创 2021-11-17 22:17:43 · 2017 阅读 · 0 评论 -
单阶段实例分割综述
前言本文比较全面地介绍了实例分割在单阶段方法上的进展,根据基于局部掩码、基于全局掩码和按照位置分割这三个类别,分析了相关19篇论文的研究情况,并介绍了它们的优缺点。公众号CV技术指南原文文末附相关19篇论文的下载方式。关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。实例分割是一项具有挑战性的计算机视觉任务,需要预测对象实例及其每像素分割掩码。这使其成为语义分割和目标检测的混合体。自 Mask R-CNN 以来,实例分割的SOTA方法主要是Mask..原创 2021-10-22 10:52:15 · 1547 阅读 · 0 评论 -
使用 PyTorch Lightning 将深度学习管道速度提高 10 倍
前言本文介绍了如何使用 PyTorch Lightning 构建高效且快速的深度学习管道,主要包括有为什么优化深度学习管道很重要、使用 PyTorch Lightning 加快实验周期的六种方法、以及实验总结。本文来自公众号CV技术指南的技术总结系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。当 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 在 2012 年设计 AlexNet 时,训练 6000.原创 2021-10-15 17:14:16 · 1038 阅读 · 0 评论 -
名词解释 | Anchor Boxes—高质量目标检测的关键
前言本文介绍了anchor的基本概念,基于anchor的实际应用流程,以及anchor的设置。本文讲的很浅,仅用于帮助小白理解基本概念。后续还会发一些深入理解anchor的文章,请继续关注公众号CV技术指南。本文来自公众号CV技术指南的技术总结系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。在学习用于目标检测的卷积神经网络时,最难掌握的概念之一是锚框(anchor)的概念。它也是可以调整以提高数据集性能的最重要参数之一。事实上,如果锚框(a.原创 2021-10-13 09:48:31 · 558 阅读 · 0 评论 -
多标签分类概述
前言本文概述了多人姿态估计任务,重点介绍了深度学习中的一些多人姿态估计方法,并简要介绍了多人姿态估计的应用场景。本文来自公众号CV技术指南的技术总结系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。人体姿势骨架以图形格式表示人的方向。本质上,它是一组可以连接起来描述人的姿势的坐标。骨架中的每个坐标都称为零件(或关节或关键点)。两个部分之间的有效连接称为一对(或肢体)。请注意,并非所有零件组合都会产生有效的配对。下面显示了一个示例人体姿势骨架。..原创 2021-10-12 20:56:32 · 1725 阅读 · 0 评论 -
深度学习中的人体姿态估计概述
前言本文概述了多人姿态估计任务,重点介绍了深度学习中的一些多人姿态估计方法,并简要介绍了多人姿态估计的应用场景。本文来自公众号CV技术指南的技术总结系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。人体姿势骨架以图形格式表示人的方向。本质上,它是一组可以连接起来描述人的姿势的坐标。骨架中的每个坐标都称为零件(或关节或关键点)。两个部分之间的有效连接称为一对(或肢体)。请注意,并非所有零件组合都会产生有效的配对。下面显示了一个示例人体姿势骨架。.原创 2021-10-09 21:03:21 · 1722 阅读 · 0 评论 -
神经网络的初始化方法总结 | 又名“如何选择合适的初始化方法”
前言本文介绍了为什么初始化很重要,总结了常用的几种初始化方法:全零或等值初始化、正态初始化、均匀初始化、Xavier初始化、He初始化和Pre-trained初始化,并介绍了几个还活跃的初始化方向:数据相关初始化、稀疏权重矩阵和随机正交矩阵初始化。本文来自公众号CV技术指南的技术总结系列欢迎关注CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。为什么初始化很重要不正确初始化的权重会导致梯度消失或爆炸问题,从而对训练过程产生负面影响。对于梯度消失问题,权重更新原创 2021-10-04 15:45:23 · 1690 阅读 · 0 评论 -
资源分享 | SAHI:超大图片中对小目标检测的切片辅助超推理库
前言本文介绍了一个用于超大图片中对小目标检测的切片辅助超推理库SAHI。该库可直接用于现有的网络,而不需要重新设计和训练模型,使用十分方便。作者:Fatih Cagatay Akyon编译:CV技术指南Github: https://github.com/obss/sahi目标检测和实例分割是迄今为止计算机视觉中最重要的应用领域。然而,小物体的检测和大图像的推理仍然是实际使用中的主要问题。下面是实例分割SOTA模型Cascade Mask RCNN的推理结果:MMDet.原创 2021-09-26 13:11:50 · 3917 阅读 · 2 评论 -
Batch Size对神经网络训练的影响
前言这篇文章非常全面细致地介绍了Batch Size的相关问题。结合一些理论知识,通过大量实验,文章探讨了Batch Size的大小对模型性能的影响、如何影响以及如何缩小影响等有关内容。本文来自公众号CV技术指南的技术总结系列点个关注 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。在本文中,我们试图更好地理解批量大小对训练神经网络的影响。具体而言,我们将涵盖以下内容: 什么是Batch Size? 为什么Batch Size很重要? 小批量和大批量如何凭原创 2021-09-24 20:33:29 · 536 阅读 · 0 评论 -
padding在深度学习模型中重要吗?
本文来自公众号CV技术指南的技术总结系列点个关注 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。前言本文介绍了两个实验,展示了padding在深度学习模型中的影响。实验一卷积是平移等变的:将输入图像平移 1 个像素,输出图像也平移 1 个像素(见图 1)。如果我们对输出应用全局平均池化(即对所有像素值求和),我们会得到一个平移不变模型:无论我们如何平移输入图像,输出都将保持不变。在 PyTorch 中,模型如下所示:y = torch.sum(conv(x), dim=(原创 2021-09-20 20:30:38 · 561 阅读 · 0 评论 -
计算机视觉中的图像标注工具总结
本文来自公众号CV技术指南资源分享系列创建高质量的数据集是任何机器学习项目的关键部分。在实践中,这通常比实际训练和超参数优化花费的时间更长。因此,选择合适的标注工具至关重要。在这里,我们总结了一些用于计算机视觉任务的最佳图像标记工具:labelme、labelImg、CVAT和hasty.ai。作者:Dmitrii编译:CV技术指南点个关注,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。labelme地址:https://github.com/wkentaro/la原创 2021-09-19 21:44:48 · 880 阅读 · 0 评论 -
边缘 AI 平台的比较
前言:边缘 AI 是当今一个非常令人兴奋的领域,有很多发展和创新即将到来。多年来,机器学习预测有一个明显的趋势,即向下移动到更接近用户、不需要网络连接并且可以实时解决复杂问题(例如自动驾驶)的嵌入式硬件。有许多新框架和引擎的模型占用空间要小得多,专门设计用于在 Edge 设备上运行。此外,当用户的个人数据不离开边缘设备时,解决用户隐私和安全的非常重要的问题要容易得多。分析推理结果的复杂算法可以在边缘设备上执行,只将最终混淆的信息发送到云端(例如,某些异常情况的警报)。本文基于我们在 Darwin E原创 2021-08-24 11:00:47 · 396 阅读 · 0 评论 -
漫谈CUDA优化
作者:Lawliet翻译:仿佛若有光前言:几个月前,我根据Simoncelli 2016年的论文编写了自己的自动编码器,用于研究目的。一开始,我想使用一些流行的深度学习框架(例如Tensor Flow、Caffe2或MXNet)来做我的实验。然而,在对所有这些框架进行了几周的调查之后,我发现了一个非常令人头疼的问题——可扩展性。我不是说这些框架设计得不好,而是不允许用户开发第三方算子,就像写一个插件一样,你给我一个没有任何参数的函数。那么改变函数行为的唯一方法就是修改源代码,由于文档组...原创 2021-08-03 22:05:43 · 552 阅读 · 0 评论 -
综述专栏 | 姿态估计综述
作者:Ilias Mansouri翻译:仿佛若有光Introduction顾名思义,通过姿势估计,我们尝试从图像中推断出物体或人的姿势。这涉及识别和定位身体上的关键点。由于身体的小关节、遮挡和缺乏上下文、旋转和方向,关键点的识别是一项非常具有挑战性的任务。在本文其余部分将主要关注人体姿势估计的情况下,膝盖、肘部、肩部和手腕等主要关节代表这些关键点。在分类方面,姿态估计器可以分为以下几类:维度(2D 与 3D) 单姿势和多姿势(检测一个或多个物体) 方法论(基于关键点与基于实例)我们原创 2021-08-01 17:56:42 · 1450 阅读 · 0 评论 -
资源分享 | 使用 FiftyOne 加快您的论文写作速度
前言:一篇论文中常常可以看到很多图,如论文提出模型与baseline模型在数据集上的效果对比示例图,(我们通常需要些在自己模型上预测很好,而baseline表现不好的样本作为展示),或者训出的模型在测试集上的检测效果示例图,可视化预测图。有时候在训模型过程中,需要了解哪些样本的预测效果很差,需要找到这些样本进行分析。那如何迅速便捷地找到这些样本呢?在本文将介绍一个python工具--FiftyOne,可以帮助解决以下这些痛点:在更多数据集上获得结果,通常是你以前从未使用过的。..原创 2021-07-17 14:40:31 · 658 阅读 · 0 评论 -
为什么GEMM是深度学习的核心
前言:在之前写的一篇计算机视觉入门路线文章中,我推荐大家在不用任何框架、只使用numpy这种包的情况下,从零实现一个卷积神经网络。其中一个很重要的因素就是在这个过程中大家会了解到卷积过程在底层中是如何优化实现的,其主流的方法就是GEMM。这篇博客比较细致地介绍了什么是GEMM,以及它的优缺点。我大部分时间都在考虑如何让神经网络的深度学习更快、更高效。在实践中,这意味着要关注一个名为GEMM的函数。它是1979年首次创建的BLAS(基本线性代数子程序)库的一部分,直到我开始尝试优化神经网络之前,我从.原创 2021-07-17 14:31:27 · 1360 阅读 · 1 评论 -
使用深度神经网络为什么8位足够?
深度学习是一种非常奇怪的技术。几十年来,它的发展轨迹与人工智能的主流完全不同,在少数信徒的努力下得以生存。几年前当我开始使用它时,它让我想起了第一次玩iPhone——感觉我得到了未来送回我们的东西,或者外星人的技术。其结果之一是,我对它的工程直觉往往是错误的。当我遇到im2col时,根据我对图像处理的经验,内存冗余似乎很疯狂,但事实证明这是解决这个问题的一种有效方法。虽然有更复杂的方法可以产生更好的结果,但它们不是我的图形背景所预测的。另一个似乎让很多人困惑的关键领域是你需要神经网络内的计算精度。在原创 2021-07-17 14:26:31 · 375 阅读 · 1 评论 -
如何看待人工智能的泡沫
前言:人工智能无疑是近些年来最火的词汇之一。不仅仅各大互联网巨头纷纷成立的研究院,布局人工智能,众多的新创企业也在靠着人工智能的创意应用获得风投。俗话说,物极必反,人工智能现在如日中天,总有给人一种不真实的感觉。那么,今后几年,人工智能真的能够快速发展,取代互联网时代吗,还是像之前的两次浪潮一样,到头来只是泡沫?关注公众号CV技术指南,及时获取更多计算机视觉技术总结文章。在公众号曾经发的一篇文章《我们真的需要模型压缩吗》中提到了这样一个观点:“通常我们都是训练一个超量的模型,在部署时进行模型原创 2021-07-08 11:14:18 · 264 阅读 · 0 评论 -
使用Dice loss实现清晰的边界检测
前言:在深度学习和计算机视觉中,人们正在努力提取特征,为各种视觉任务输出有意义的表示。在一些任务中,我们只关注对象的几何形状,而不管颜色、纹理和照明等。这就是边界检测的作用所在。关注公众号CV技术指南,及时获取更多计算机视觉技术总结文章。问题定义图1边界检测图1是一个边界检测的例子,顾名思义,边界检测是从图像中检测对象边界的任务。这是一个不适定的问题,因为问题设置本身存在歧义。如图所示,对于室内房间图像(左),ground truth(中)定义房间内的ground tr.原创 2021-07-06 08:42:31 · 753 阅读 · 0 评论 -
CVPR2021|PVT--无卷积密集预测的多功能backbone
前言:卷积神经网络(CNN)在计算机视觉领域取得了显著的成功,几乎成为所有计算机视觉任务中的一种通用和主导方法。受transformer在自然语言处理(NLP)的成功,许多研究人员正试图探索transformer的应用,一些工作模型视觉任务作为字典查找问题可学习查询,并使用transformer decoder作为一个特定任务的头的CNN主干,如VGG和ResNet。而一些现有技术已经将注意力模块纳入到CNNs中。论文:https://arxiv.org/pdf/2102.12122.pdf原创 2021-07-05 08:44:53 · 462 阅读 · 0 评论 -
CVPR2021 | 开放世界的目标检测
本文将介绍一篇很有意思的论文,该方向比较新,故本文保留了较多论文中的设计思路,背景知识等相关内容。前言:人类具有识别环境中未知对象实例的本能。当相应的知识最终可用时,对这些未知实例的内在好奇心有助于了解它们。这促使我们提出一个新的计算机视觉问题,称为:“开放世界对象检测”,其中模型的任务是:1)将尚未引入的对象识别为“未知”,无需明确监;2)在逐渐接收到相应的标签时,逐步学习这些已识别的未知类别,而不会忘记先前学习的类别。我们制定了这个问题,引入了评估协议并提供了一种新颖的解决方..原创 2021-07-02 17:20:04 · 687 阅读 · 0 评论