![](https://img-blog.csdnimg.cn/cc746f97e23c4f14becf1c5d4a3f81d4.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
论文精读_解析模型结构
文章平均质量分 94
精度深度学习方面的论文,通过解析模型的结构了解作者的心血之作,为自己未来模型的质量汇聚力量!
Flying Bulldog
致力于研究计算机视觉、图像处理的一位帅气学者!
展开
-
计算机视觉论文精度大纲
图像分类、目标检测、视频目标检测和Transformer论文链接直达。原创 2022-07-02 13:24:23 · 1442 阅读 · 2 评论 -
论文精读 && MOG2系列 && OpenCV源码提供的论文
背景减法是一项常见的计算机视觉任务。我们分析通常的像素级方法。我们使用高斯混合概率密度开发了一种有效的自适应算法。递归方程用于不断更新参数,而且还用于同时为每个像素选择适当数量的分量。静态摄像机观察场景是监控系统的常见情况。检测入侵物体是分析场景的重要步骤。一个通常适用的假设是,没有跋涉物体的场景图像表现出一些可以用统计模型描述的规则行为。如果我们有一个场景的统计模型,可以通过发现图像中不符合模型的部分来检测入侵物体。这个过程通常被称为“背景减法”。原创 2024-04-17 11:26:43 · 958 阅读 · 0 评论 -
SCI 四区(JEI)投稿到录用过程中的经历和心得体会
计算机视觉领域中,包含目标检测、三维重建、语义分割、图像分类等分支。其中,目标检测分支最卷,你知道的,没有背景和资源,发一篇SCI属实不易。本篇博客详细介绍本人投稿到录用过程中的经历和心得。科研之路虽蜿蜒崎岖,我们也要昂首阔步抵达彼岸,那时的我们站在成长的尽头,回首过去,一路崎岖早已繁花盛开。祝大家马到成功!早日ACCEPT!原创 2024-04-15 22:40:59 · 2462 阅读 · 19 评论 -
论文精读 && MOG2 && 阴影检测
图像序列中运动区域的实时分割是许多视觉系统的基本步骤,包括自动视觉监视、人机界面和低频电信号。一种典型的方法是背景减法(background subtraction)。问题:许多背景模型被引入来处理不同的问题。这些问题的成功解决方案之一是使用Grimson等人[1,2,3]提出的每像素多色背景模型。然而,该方法在开始时学习缓慢,尤其是在繁忙的环境中。此外,它无法区分移动阴影和移动对象。本文提出了一种改进这种自适应背景混合模型的方法。通过重新研究更新方程,我们在不同的阶段使用不同的方程。原创 2023-12-07 21:36:11 · 1095 阅读 · 0 评论 -
论文精读 && MOG && 埃里克·格里姆森
实时分割图像序列中运动区域的一种常见方法包括“背景减法”,即对没有运动对象的图像估计值与当前图像之间的误差进行阈值处理。解决这个问题的多种方法因所使用的背景模型类型和更新模型的程序而异。本文讨论了将每个像素建模为高斯混合,并使用在线近似来更新模型。然后评估自适应混合模型的高斯分布,以确定哪些最有可能由背景过程产生。根据最有效地表示每个像素的高斯分布是否被视为背景模型的一部分,对每个像素进行分类。过去,计算障碍限制了实时视频处理应用的复杂性。原创 2023-12-07 15:51:36 · 1335 阅读 · 0 评论 -
论文精读 && Co-DETR(Co-DINO、Co-Deformable-DETR)
1. Co-DETR基于DAB-DETR、Deformable-DETR和DINO网络进行了实验。2. Co-DETR发现DETR及其变体网络是一对一标签分配,指出了其中的问题,随之提出一对多标签分配监督多个并行辅助头的方法。3. 为了提高解码器中正样本(positive samples)的训练效率,Co-DETR从辅助头中提取正坐标(positive coordinates)来进行额外定制的正查询(positive queries)。4. 辅助头只在训练过程中使用,推断过程中被丢弃,只使用源网络进行推断。原创 2023-12-01 15:04:20 · 3352 阅读 · 1 评论 -
论文精读 && MediaPipe BlazeFace
我们介绍BlazeFace,一款为移动GPU推理量身定制的轻量级且性能良好的人脸检测器。它在旗舰设备上以200–1000 FPS的速度运行。这种超实时性能使其能够应用于任何需要准确的感兴趣面部区域作为特定任务模型输入的增强现实管道,如2D/3D面部关键点或几何估计、面部特征或表情分类以及面部区域分割。一个受 MobileNet V1/V2 启发但不同于MobileNet的轻量级特征提取网络;一个从单次多盒检测器(SSD)修改而来的GPU友好锚定方案;以及一个改进的平局分辨率策略,以替代非最大值抑制。原创 2023-11-14 16:12:22 · 581 阅读 · 0 评论 -
论文精读 && MediaPipe Hands
我们提出了一种实时的设备手跟踪解决方案,该解决方案可以从AR/VR应用的单个RGB相机预测人类的手骨架。我们的管道由两个模型组成:1)手掌检测器,它为手掌提供一个边界框;2)模型,它预测手掌骨架。它是通过实现的,这是一个用于构建跨平台ML解决方案的框架。所提出的模型和流水线结构证明了移动GPU上的实时推理速度和高预测质量。MediaPipe Hands的源代码为图1:渲染的手跟踪结果。(左):用不同色调呈现相对深度的hand landmarks。圆圈越轻、越大,地标就越靠近相机。原创 2023-11-14 13:01:31 · 1071 阅读 · 0 评论 -
行人检测综述 之 精华提取——图表与挑战
调查内容:关于行人检测的传统算法和深度学习算法;关于行人检测的单光谱检测和多光谱检测;关于行人检测的多种数据集;关于行人检测的问题和挑战。一篇好的论文(此综述发表在PAMI期刊,SCI一区TOP),只看图表便可以大概读懂其内容,所以,本博客不对综述内容进行逐句翻译,只撰写综述中的图表和未来挑战。原创 2023-11-09 22:34:49 · 389 阅读 · 0 评论 -
MediaPipe之人体关键点检测>>>BlazePose论文精度
我们提出了BlazePose,一种用于人体姿态估计的轻量级卷积神经网络架构,用于在移动设备上进行实时推理。在推理过程中,该网络为单个人生成33个身体关键点,并在Pixel2手机上以每秒30帧以上的速度运行。这使得它特别适合实时用例图,如健身跟踪和手语识别。我们的主要贡献包括一个新颖的身体姿态跟踪解决方案和一个轻量级的身体姿态估计神经网络,它同时使用了热图(heatmap)和对关键点坐标的回归。从图像或视频中进行人体姿态估计在各种应用中起着核心作用,如健康跟踪、手语识别和手势控制。原创 2023-02-10 17:10:45 · 3893 阅读 · 2 评论 -
Faster RCNN精读
最先进的目标检测网络依赖于区域建议算法来假设目标位置。SPPnet和Fast R- CNN等技术的进步降低了这些检测网络的运行时间,使得区域推荐计算成为瓶颈。在这项工作中,我们引入了一个区域建议网络( RPN ),它与检测网络共享全图像卷积特征,从而实现了几乎无成本的区域建议。RPN是一个全卷积网络,它同时预测每个位置的对象边界和对象得分。RPN经过端到端的训练,生成高质量的区域提案,供Fast R-CNN用于检测。原创 2022-12-11 22:46:06 · 765 阅读 · 0 评论 -
YOLO 系列论文精读 & YOLOv4
YOLO系列的论文已经告一段落,期间也精读了DETR系列的一些论文,颇有感受。YOLOv4更像是一篇总结性的文章,具体描述了整个模型的各个阶段,并对每个阶段的经典算法进行了研究和消融实验,值得我们重新思考神经网络模型的框架。我们提供了一个最先进的探测器,它比所有可用的替代探测器更快( FPS )和更准确的( MS COCO AP50 ... 95和AP50)。所描述的探测器可以在具有8 - 16GB - VRAM的传统GPU上训练和使用,这使得它的广泛应用成为可能。...原创 2022-08-25 21:34:50 · 2080 阅读 · 0 评论 -
YOLOv3 论文精读
我们对YOLO做了一些更新!我们做了一堆小的设计变更,使其变得更好。我们还训练了这个非常庞大的新网络。它比上次大一点,但更准确。不过还是很快的,不用担心。在320 × 320时,YOLOv3在22 ms内以28.2 mAP运行,与SSD一样精确,但速度快3倍。当我们查看旧的0.5 IOU的mAP检测度量YOLOv3是相当不错的。在Titan X上,它在51ms内达到 57.9,而RetinaNet在198ms内达到 57.5,性能相似,但速度快3.8倍。原创 2022-08-19 16:09:27 · 5556 阅读 · 2 评论 -
Transformer 综述 & Transformers in Vision: A Survey
来自自然语言任务的Transformer模型的惊人结果引起了视觉界的兴趣,他们研究了它们在计算机视觉问题中的应用。与长短期记忆( Long short-term memory,LSTM )等循环网络相比,Transformer能够建模输入序列元素之间的长依赖关系,并支持序列的并行处理。与卷积网络不同,Transformer在设计时要求最小的电感偏差,并且作为集合函数自然适用。......原创 2022-08-18 19:49:12 · 1918 阅读 · 0 评论 -
Sparse R-CNN 论文精读
文章的创新点:首次提出动态实例交互头:在迭代结构中,结合线性投影、矩阵乘法、归一化和ReLU激活函数对输入的提议框和提议特征进行一系列操作,最终得到叠加的学习特征。剔除NMS,选用DETR中的匈牙利匹配优化Sparse:提议特征默认选用100个,比以往的传统CNN的手工预选框少了几十倍主要结合Fast R-CNN、DETR和Deformer DETR构造的框架...原创 2022-08-15 19:59:06 · 2997 阅读 · 2 评论 -
Efficient DETR 论文精读
最近提出的端到端转换器(如DETR和Deformable DETR )具有堆叠 6 个解码器层的级联结构,可以迭代地更新对象查询,否则它们的性能会严重下降。在本文中,我们研究对象容器的随机初始化,包括对象查询和参考点,主要负责多次迭代的需求。基于我们的发现,我们提出了高效的DETR,一个简单高效的端到端目标检测 pipeline。通过利用密集检测和稀疏集检测的优势,高效DETR在初始化对象容器之前利用密集检测,带来1 -解码器结构和6 -解码器结构的差距。...原创 2022-08-13 20:17:59 · 3465 阅读 · 7 评论 -
DAB DETR 论文精度,并解析其模型结构
在本文中,我们提出了一种新的使用动态锚框的DETR ( DEtect TRansformer )查询公式,并对DETR中查询的作用有了更深入的理解。这个新的公式直接使用方框坐标作为Transformer解码器中的查询,并逐层动态更新它们。使用 box 坐标不仅有助于使用显式的位置先验( x, y )来提高查询到特征的相似度,并消除DETR中的缓慢训练收敛问题,而且还允许我们使用 box 宽度和高度信息来调整位置注意力图。...原创 2022-08-12 17:51:33 · 2164 阅读 · 0 评论 -
Swin Transformer 论文精读,并解析其模型结构
计算机视觉的建模从AlexNet在ImageNet分类挑战的良好表现开始,然后到目标检测的SSD、RCNN、YOLO等模型,一直由CNN主导。直到NLP领域中Transformer的崛起,并经ViT应用到视觉领域后,我们感受到了Transformer全局建模的强大之处。如摘要所述,图像喂入Transformer的计算复杂度远远高于语言的输入,故SwinTransformer诞生了,接下来通过精读此论文揭晓Swin的创新思想。一、摘要,以及图像中像素相对于文本中单词的。hifted二、结论。...原创 2022-08-02 10:06:58 · 3982 阅读 · 4 评论 -
ACmix 论文精读,并解析其模型结构
卷积和自注意力是两种强大的表示学习技术,通常被认为是两种不同的对等方法。在本文中,我们证明了它们之间存在着很强的内在联系,即这两种范式的计算量实际上是以相同的运算完成的。具体来说,我们首先证明了一个传统的卷积核大小为k×k,可以分解为k2个单独的1×1卷积,然后进行移位和求和操作。然后,我们将查询、键和值在自注意力模块中的投影解释为多个1×1卷积,然后计算注意力权重和值的聚合。因此,两个模块的第一阶段都包含类似的操作。models。...原创 2022-07-31 11:18:07 · 4019 阅读 · 1 评论 -
DN-DETR 论文精度,并解析其模型结构 & 2022年CVPR论文
DN-DETR通过分析DETR收敛速度慢的其中一个原因是因为二分图匹配的不稳定性,从而提出通过去噪方法来稳定匹配,加速模型的收敛。本文提出了一种新的去噪训练方法来加速DETR(DEtectionTRansformer)训练,并加深了对DETR类方法收敛速度慢问题的理解。我们表明,缓慢的收敛是由于二分图匹配的不稳定性导致在早期训练阶段优化目标不一致。为了解决这个问题,除了匈牙利损失外,我们的方法还将带有噪声的真实边界框输入到Transformer解码器中,并训练模型来重建原始框,...原创 2022-07-27 20:29:03 · 3028 阅读 · 5 评论 -
通过公式和源码解析 DETR 中的损失函数 & 匈牙利算法(二分图匹配)
DETR在单次通过解码器时推断一个固定大小的有N个预测的集合,其中N被设置为显著大于图像中典型的物体数量。所有真实框中的每一个框和所有预测框进行匹配,损失值最小的预测框为该真实框的最佳匹配框,当所有真实框遍历完毕后,得到所有唯一匹配的框。完成最优分配,假设有六位老师和六种课程,通过匈牙利算法进行匹配后,每一位老师都会分到不同的一个课程。匹配成功之后,对预测框的分数、类别、中心点坐标和宽高进行损失值的计算。之间的匹配成本并不依赖于预测,这意味着在这种情况下,成本是一个常数。表示有N个预测的集合。...原创 2022-07-26 16:24:58 · 9579 阅读 · 9 评论 -
DINO 论文精度,并解析其模型结构 & DETR 的变体
截止2022年7月25日,DINO是目标检测的SOTA。本人根据源码的复现感受和DINO论文的精读心得,撰写本篇博客,希望对你有所帮助。DINO(DETR with Improved deNoising anchOr boxes),一款最先进的端到端对象检测器。对比的去噪训练方式;用于锚点初始化的混合查询选择方法;用于框预测的向前两次方案;本文章会对以上三种创新方法逐点击破。使用ResNet-50主干和多尺度特征,DINO在12个epoch获得49.4AP,在24个epoch获得51.3AP(收敛极快!).原创 2022-07-25 23:30:16 · 24823 阅读 · 12 评论 -
DETR 论文精读,并解析模型结构
我们提出了一种新的方法,将目标检测视为一个直接的集合预测问题。我们的方法精简了检测管道,有效地消除了许多手工设计的组件,如非极大值抑制过程或锚生成,这些组件显式地编码了我们关于任务的先验知识。新框架的主要组成部分,称为DEtectTRansformer或DETR,是一个基于集合的全局损耗,通过二分匹配和一个转换器编码器-解码器架构强制进行唯一的预测。给定一个固定的小规模学习对象查询集,DETR根据对象和全局图像上下文的关系,并行地直接输出最终的预测集。全景分割。我们表明它明显优于竞争性基线。......原创 2022-07-21 23:44:19 · 6558 阅读 · 2 评论 -
DEFORMABLE DETR 论文精度,并解析网络模型结构
DETR最近被提出以消除在目标检测中对许多手工设计的组件的需求,同时表现出良好的性能。然而,由于Transformer注意力模块在处理图像特征图时的局限性,它存在收敛速度慢和特征空间分辨率有限的问题。针对这些问题,我们提出了DeformableDETR,其注意力模块只关注参考周围的少量关键采样点。DeformableDETR在比DETR少10倍的训练次数下可以获得比DETR(尤其是在小物体上)更好的性能。在COCO基准测试集上的大量实验证明了我们方法的有效性。https。...原创 2022-07-21 22:27:01 · 3915 阅读 · 3 评论 -
YOLO系列论文精度 & YOLOv2 and YOLO9000
论文关键词总结:DarkNet、YOLO9000、YOLOv2、Word Tree、K-Means、多尺度训练、联合训练、passthrough layer、细粒度的特征、预选 Bester Anchor Boxes。所有的代码和预训练的模型都可以在线获得:YOLO: Real-Time Object Detection我们引入YOLO9000,这是一个最先进的实时物体检测系统,可以检测超过9000个物体类别。首先,我们对YOLO检测方法提出了各种改进,既有新颖的,也有借鉴前人工作的。...原创 2022-07-14 20:16:15 · 1326 阅读 · 2 评论 -
ResNet 论文精读 & 残差块的恒等映射 & 网络结构的解析
论文重要知识:恒等映射、两种残差块、维度匹配和残差学习(层响应标准差Deep Residual Learning for Image Recognition用于图像识别的深度残差学习更深层的神经网络更难训练。我们提出了一个残差学习框架来简化那些比以前使用的深度更深的网络的训练。我们显式地将层重构为参考层输入的学习残差函数,而不是学习未参考的函数。我们提供了全面的经验证据,表明这些残差网络更容易优化,并且可以从相当大的深度增加中获得准确性。......原创 2022-07-11 16:09:50 · 5867 阅读 · 0 评论 -
YOLO系列论文精度 & YOLOv1
我们提出了YOLO,一种新的目标检测方法。先前的目标检测工作使用分类器来执行检测。相反,我们将目标检测框定为空间分离的边界框和相关类概率的回归问题。单个神经网络在一次评估中直接从完整图像预测边界框和类概率。由于整个检测管道是一个单一的网络,因此可以直接对检测性能进行端到端的优化。我们的统一架构速度极快。我们的 base YOLO 模型以每秒45帧的速度实时处理图像。该网络的一个较小的版本,Fast YOLO,每秒处理惊人的155帧,同时仍然实现了其他实时探测器的两倍的mAP。与最先进的检测系统相比,YOLO原创 2022-07-10 15:21:38 · 1745 阅读 · 0 评论 -
论文精读之 Google_v3,以及其相对于 Google_v1 和 Google_v2_BN 的模型比较
Rethinking the Inception Architecture for Computer Vision重新思考计算机视觉的 Inception 架构目录一、摘要二、结论三、一般设计原则四、辅助分类器的效用五、因子分解(Factorizing)卷积 (1)5*5分解成两个3*3(2)3*3分解成1*3和3*1(3)前两种分解的综合应用六、高效的网格尺寸缩减七、通过标签平滑的模型正则化八、在低分辨率输入上的性能(小目标分类检测)九、实验结果比较卷积网络是大多数先进的计算机视觉解决方案的核心,适用于各原创 2022-07-04 16:03:24 · 630 阅读 · 0 评论 -
经典BN很NB,精读论文《Batch Normalization》
首先看摘要和结论,然后分析核心思想,最后总结表格内容和实验细节。训练深度神经网络是一个复杂的事实,在训练过程中每一层的输入分布随着前一层的参数变化而变化。这就需要较低的学习速率和仔细的参数初始化来减缓训练速度,并且使得具有饱和非线性的模型的训练变得非常困难。我们将这一现象称为内部协变量偏移(internal covariateshift),并通过归一化层输入来解决这个问题。我们的方法从将规范化作为模型架构的一部分和对每个训练小批量执行规范化来吸取其优点。Batch Normalization允许我们使用更高原创 2022-06-28 22:06:40 · 1660 阅读 · 4 评论 -
《Going deeper with convolutions》论文精度,并解析GoogLeNet 网络模型结构
在2014年的ImageNet图像识别挑战赛中,⼀个名叫GoogLeNet 的网络架构⼤放异彩。GoogLeNet吸收了NiN《Network In Network》中串联网络的思想,并在此基础上做了改进。这篇论文的⼀个重点是解决了什么样大小的卷积核最合适的问题。毕竟,以前流⾏的网络使用小到1 × 1,⼤到11 × 11的卷积核。本文的⼀个观点是,有时使用不同大小的卷积核组合是有利的。(全都要!)目录一、引言(1)SOTA(state of the art)(2)Hebbian Principe:neuro原创 2022-06-21 13:57:31 · 748 阅读 · 0 评论 -
VGGNet 论文精度,并解析 VGG-16 网络模型结构
《VERY DEEP CONVOLUTIONAL NETWORKSFOR LARGE-SCALE IMAGE RECOGNITION》所以我们用3个3×3的卷积叠层代替单个7×7的卷积叠层得到了什么?(1)首先,我们用三个非线性校正层(ReLus)代替一个非线性校正层(ReLU),使得决策函数更具区分度。(2)其次,我们减少了参数个数:假设三层3 × 3卷积堆的输入和输出都有C通道,堆栈参数为个权重(3)最后,多个卷积堆叠在一起可以使得模型的深度增加,证明了本文章的结论:深度在视觉表征中的重要性。.原创 2022-06-20 21:49:27 · 3382 阅读 · 0 评论 -
AlexNet 论文精度,以及解析网络模型结构
《ImageNet Classification with Deep Convolutional Neural Networks》网络模型的名称由来:第一作者的名字 Alex Krizhevsky我们训练了一个大型的深度卷积神经网络,将ImageNet LSVRC - 2010竞赛中120万幅高分辨率图像分类到1000个不同的类中。在测试数据上,我们分别取得了37.5 %和17.0 %的前1位和前5位错误率,明显优于以往的先进水平。该神经网络包含6000万个参数和65万个神经元,由5个卷积层组成,其中部分卷原创 2022-06-19 16:01:42 · 1613 阅读 · 0 评论 -
《Vision Transformer (ViT)》论文精度,并解析ViT模型结构以及代码实现
论文共有22页,表格和图像很多,网络模型结构解释的很清楚,并且用四个公式展示了模型的计算过程;本文章对其进行精度,并对源码进行剖析,希望读者可以耐心读下去。原创 2022-06-18 16:54:32 · 5633 阅读 · 4 评论 -
《Attention Is All You Need》论文精读,并解析Transformer模型结构
建议:结合《Attention Is All You Need》论文观看此文章。Transformer的模型结构如下图所示,通过把“My money don't jiggle jiggle”翻译成“我的钱不摇晃摇晃”来分析Transformer的工作过程。训练过程中,每一次解码器的输出与数据集中的翻译值通过交叉熵计算错误率(一次送入batch_size大小个token,计算错误率),从而对权重进行更新。预测过程,同训练过程相似,即输入英文句子,一个词一个词的翻译成汉语句子。...原创 2022-06-16 17:23:01 · 1385 阅读 · 0 评论