![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 92
calvinpaean
Carpe diem.
展开
-
YOLOv10 论文学习
此外,在“一对一”的匹配时,作者采用了 top-1 选项,取得的表现和匈牙利匹配一样,额外的训练时间要更少。为了在训练中省去 NMS,作者提出了双标签分配策略和一致的匹配度量,这样模型能在训练时获得丰富且均衡的监督信号,推理时无需 NMS,从而改善了表现、降低了推理延迟。由于训练的随机性,作者用相同的值来初始化这俩 heads,产生相同的预测结果,也就是说,对于每对预测-ground-truth,“一对一” head 和“一对多” head 输出相同的。但是,它们的计算成本是明显不同的。原创 2024-05-25 19:20:57 · 1313 阅读 · 0 评论 -
SNPE 的安装和简单使用
专为高通骁龙系列设计的 DNN 深度学习加速运行库,可以理解为一个在骁龙环境下可执行的机器学习后端,类比于 TensoRT 或 ONNX。转载 2024-05-10 16:44:00 · 198 阅读 · 0 评论 -
GhostNetV2 Enhance Cheap Operation with Long-Range Attention 论文学习
实际上,CNN 的特征图通常是 low-rank 的,并不需要将不同空间位置的所有的输入和输出 tokens 都密集地连接起来。在 DFC 注意力中,一个区域只和它水平和垂直方向的区域做直接的融合,而其它区域只参与受关注 token 的水平和垂直方向的区域的生成,它们与受关注 token 只有间接的关联。对于相同的输入,Ghost 模块和 DFC 注意力是两个平行的分支,从不同的角度提取信息。因此,作者通过水平和垂直方向的下采样来降低特征图尺寸,这样 DFC 注意力的所有操作都可以在更小的特征上进行。原创 2024-05-07 21:24:29 · 899 阅读 · 0 评论 -
MobileNetV4 论文学习
换句话说,MNv4模型能够使用昂贵的层,这些层虽然会不成比例地提高准确性,但不会同时承受这些层的联合成本,从而在所有ridge points(可能指特定的性能评估点或模型参数设置点)上主要实现了帕累托最优性能。受到 MQA 启发,它对 queries, keys, values 使用了非对称的计算,作者在优化的 MQA 中加入了空间降维注意力(spatial reduction attention),缩小 keys 和 values 的分辨率,但保持高分辨率的 queries。硬件处理器和内存的理论上限。原创 2024-04-29 14:25:23 · 1339 阅读 · 0 评论 -
GhostNetV3 论文学习
但是这些网络的训练策略仍借鉴于传统的模型,这就忽视了它们在模型性能上的差异,可能制约精简模型的表现。GhostNets 在移动设备上取得了 SOTA 表现,核心模块就是 Ghost 模块,通过低成本操作产生更多的特征图,从而替代原有的特征图。受到传统模型训练的启发,作者对这两个模块使用了重参数化,实现更好的表现。但是,人们提出的训练策略很多是针对传统模型的,很少有针对精简模型的。直接将传统模型的训练策略照搬在精简模型上是不恰当的。KD 是模型压缩的常用方法,大教师模型预测的结果作为小型学生模型的学习目标。原创 2024-04-27 14:57:37 · 692 阅读 · 0 评论 -
分布式入门,怎样用PyTorch实现多GPU分布式训练
这篇文章旨在阐述训练大规模深度学习模型时的分布式计算思想。具体来讲,本文首先介绍了分布式计算的基本概念,以及分布式计算如何用于深度学习。然后,列举了配置处理分布式应用的环境的标准需求(硬件和软件)。最后,为了提供亲身实践的经验,本文从理论角度和实现的角度演示了一个用于训练深度学习模型的分布式算法(同步随机梯度下降,Synchronous SGD)。何为分布式计算分布式计算指的是一种编写程序的方式,它利用网络中多个连接的不同组件。通常,大规模计算通过以这种方式布置计算机来实现,这些计算机能够并行地处理高转载 2021-12-08 14:59:31 · 921 阅读 · 0 评论 -
Hand-Object Contact Prediction via Motion-Based Pseudo-Labeling 论文学习
Abstract每一次人物交互都始于接触。尽管预测手和物体接触的状态对于理解手和物体间的交互是有帮助的,以前研究手和物体的方法都假设手和物体是已知的,没有进行细节研究。本文作者引入了一个基于视频的方法,预测手掌和物体的接触。给定一段视频以及手与物体的轨迹,我们可以对每一帧预测出一个二元接触状态(接触或没接触)。但是,标注手掌-物体轨迹和接触的标签需要大量的人工。为了解决这个问题,作者提出了一个半监督框架,包括 (i) 利用基于运动的伪标签来自动搜集训练数据,(ii) 引导渐进的标签修正(gPLC),用少量原创 2021-10-25 16:23:38 · 604 阅读 · 0 评论 -
ArcFace: Additive Angular Margin Loss for Deep Face Recognition 论文学习
论文地址:https://arxiv.org/pdf/1801.07698.pdfAbstract使用 DCNN 进行大规模人脸识别的一个主要挑战就是设计损失函数来增强判别能力。Center loss 在欧式空间中惩罚深度特征和它们对应类别中心点的距离,实现类内紧凑性。SphereFace 假设最后一个全连接层的变换矩阵可以当作角度空间里类别中心点的表征使用,以乘数的方式惩罚深度特征和对应权重的角度距离。最近比较流行的方法是将 margins 加入到损失函数中,最大化人脸类别的区分度。本文提出了一个 A原创 2021-10-15 14:43:01 · 1570 阅读 · 0 评论 -
L2-constrained Softmax Loss for Discriminative Face Verification 论文学习
Abstract得益于DCNN,人脸验证系统在近些年取得了巨大的成功。 人脸验证系统通常包括一个使用 softmax loss 的分类网络,它将倒数第二层的输出作为特征描述,计算出给定的一对人脸图像的余弦相似度。Softmax loss 并不是优化特征,来让正样本对拥有更高的相似度得分、负样本对拥有更低的相似度得分,这就产生了分歧。作者给特征描述增加了 L2L_2L2约束,将它们限制在固定半径的超球面上。通过现有的深度学习方法可以很容易地实现。作者证明,训练时加入这一步骤可以明显地提升人脸验证效果。在原创 2021-10-13 17:53:19 · 398 阅读 · 0 评论 -
SphereFace2 Binary Classification is All You Need for Deep Face Recognition
Abstract当前先进的深度人脸识别方法大多是通过一个 softmax 多类别分类框架来训练。尽管它们的应用很广、也很有效,但是多项缺点束缚了它们在推理阶段的表现。本文首次找到了这些多类别分类框架在训练和测试阶段的差异,讨论了 softmax 归一化的“竞争”本质造成的束缚。于是提出了一个新的二元分类训练框架,叫做SphereFace2。与现有方法相比,SphereFace2 规避了 softmax 归一化,以及相应的 closed-set 假设。它有效地弥补了训练和测试时的差异,通过每个二分类任务来单原创 2021-10-13 11:07:52 · 705 阅读 · 1 评论 -
Circle Loss A Unified Perspective of Pair Similarity Optimization 论文学习
Abstract本文针对深度特征学习提供了一个 pair 相似度优化方案,目的是最大化类内相似度sps_psp,最小化类间相似度sns_nsn。作者发现大多数的损失函数(包括 triplet loss、softmax 交叉熵损失)都将sns_nsn和sps_psp嵌入相似度 pair 中,然后去最小化(sn−sp)(s_n-s_p)(sn−sp)。这样的优化方式非常不灵活,因为对每个相似度得分的惩罚强度是相等的。本文的出发点就是,如果一个相似度得分距离最优点偏的很远,它就应该被强调出来。于是,原创 2021-10-09 16:40:41 · 417 阅读 · 0 评论 -
Counterfactual Attention Learning for Fine-Grained Visual Categorization and Re-identification 论文学习
论文地址:https://arxiv.org/pdf/2108.08728.pdfGithub地址:https://github.com/raoyongming/CALAbstract注意力机制在细粒度视觉分类任务上非常有效。本文介绍了一个反事实的注意力学习方法,基于因果推理来学习更加有效的注意力。现有的方法都基于传统的概率来学习注意力,本文作者提出利用反事实因果关系来学习注意力,为评价注意力的质量提供了一个强力的工具,提供的监督信号可有效地指导训练过程。作者通过反事实介入,分析学到的注意力对网络预测原创 2021-10-08 13:04:05 · 4442 阅读 · 1 评论 -
ResRep Lossless CNN Pruning via Decoupling Remembering and Forgetting 论文学习
Abstract本文提出了一个新颖的方法 ResRep,用于无损的通道剪枝(即滤波器剪枝),它通过降低卷积层的宽度(输出通道的个数)对CNN做剪枝。在神经生物学中,记忆和遗忘是独立的。受此启发,作者提出将CNN重参数化为记忆部分和遗忘部分,前者学习保持模型的性能,后者学习如何剪枝。对前者用标准的 SGD 来训练,但对后者会采用一个新的更新策略,对其梯度做惩罚,这样就可实现结构稀疏性。然后,我们将记忆和遗忘部分等价地融合进原来的结构中,网络层要窄一些。这个方法将 ResRep 和传统的、基于学习的剪枝范式区原创 2021-09-26 18:12:29 · 668 阅读 · 0 评论 -
Bag of Tricks and A Strong Baseline for Deep Person Re-identification 论文学习
Abstract本文研究了一个简单而高效的行人重识别基线模型。通过深度神经网络进行行人重识别在最近几年取得了突飞猛进。但是,许多SOTA方法都使用了复杂的网络结构,将多分支特征组合起来。学者们提出了一些有效的训练方法。本文针对行人重识别任务,搜集、评估了这些训练方法。将这些方法组合起来,模型只用全局特征,就在 Market1501 上取得了 94.5%94.5\%94.5% 的 rank-1 和 85.9%85.9\%85.9% 的 mAP。代码和模型放在了 https://github.com/mich原创 2021-09-01 13:17:41 · 197 阅读 · 0 评论 -
SuperPoint Self-supervised Interest Point Detection and Description
Abstract本文提出了一个用于训练兴趣点检测器和描述子的自监督框架,适用于各多视角几何问题。与基于图像块的神经网络不同,本文的全卷积模型可以用于全尺寸图像,仅凭单次前向计算就可得到像素层级的兴趣点位置和相关描述子。作者引入了单应自适应方法,以及一个多尺度、多单应的方法来提升兴趣点检测的可重复性,并进行跨域自适应(合成-真实图像)。本文模型通过单应自适应方法,在 MS-COCO 数据集上进行了训练,相较于其它传统模型,可重复检测出更加丰富的兴趣点集合。和 LIFT、SIFT 和 ORB 方法相比,该系统原创 2021-08-26 15:34:03 · 1981 阅读 · 0 评论 -
Self-Damaging Contrastive Learning 论文学习
Abstract最近对比学习取得了一些突破性进展,加速了非监督学习在真实数据上应用部署。但是现实世界中的未标注数据是非常不均衡的,具有长尾分布的特点,最新的对比学习方法在实际场景中的表现到底如何,仍是未知。本文通过自损对比学习(SDCLR)框架直面这个问题,无需知道类别信息,自动地平衡表征学习。本文主要受到最近的一些发现启发,深度模型有一些样本是 difficult-to-memorize 的,这些样本在网络剪枝后会暴露出来(Hooker et al., 2020)。那我们就可进一步假设,模型对于长尾样本原创 2021-07-15 18:24:39 · 597 阅读 · 0 评论 -
RSG A Simple but Effective Module for Learning Imbalanced Datasets 论文学习
Abstract原创 2021-07-11 14:49:09 · 1384 阅读 · 0 评论 -
ReDet A Rotation-equivariant Detector for Aerial Object Detection 论文学习
Abstract最近,人们开始关注航拍图像中的目标检测任务。与自然图像中的物体不同,航拍目标的朝向通常很随意。因此,检测器需要更多的参数来编码朝向信息,非常冗余且低效率。此外,因为常见的CNN无法显式地建模朝向变化,我们就需要增广大量的旋转数据来训练一个准确的目标检测器。本文作者提出了一个 Rotation-equivariant 检测器(ReDet),可以解决这些问题,显式地编码旋转同变性和旋转不变性。更具体点,作者在检测器中融入了 rotation-equivariant 网络,提取 rotation原创 2021-07-02 23:56:21 · 2574 阅读 · 5 评论 -
VOLO Vision Outlooker for Visual Recognition论文分析
Abstract多年来,CNN 主导着视觉识别任务。尽管最近 ViTs 在 ImageNet 分类任务上展现了自注意力模型不俗的潜力,但如果没有额外数据支撑的话,仍要弱于 SOTA 卷积模型。本文作者尝试弥补性能的差距,证明基于注意力的模型能超越 CNN。作者发现对于 ImageNet 分类任务,限制 ViT 性能的主要因素就是它们不擅长在 token 表征中编码细粒度特征。为了解决这个问题,作者引入了一个新的 outlook 注意力,提出了一个简单而通用的架构,叫做 Vision Outlooker(V原创 2021-06-29 19:08:43 · 2191 阅读 · 5 评论 -
CompConv: A Compact Convolution Module for Efficient Feature Learning 论文学习
AbstractCNN 在各视觉任务上取得显著成功,但计算开支巨大。为了解决这个问题,现有方法要么对训练好的模型做压缩,要么设计一个轻量级的网络结构训练。本文作者仔细研究了卷积算子,降低计算开支。提出了一个简洁的卷积模块,叫做 CompConv,有助于高效的特征学习。基于分治的思想,CompConv 能省去大量的计算开支和参数,来产生一定维度的特征图。此外,为了有效地继承输入信息,CompConv 往输出中加入输入特征是非常审慎的。CompConv 是即插即用的,能直接应用到现有的 CNN 结构中,替代标原创 2021-06-25 17:14:49 · 705 阅读 · 5 评论 -
X-volution On the Unification of Convolution and Self-attention 论文学习
Abstract卷积和自注意力是DNN中的两个基本模块,前者以线性的方式提取局部图像特征,后者从全局的角度对高阶语义关系做编码。尽管二者在本质上是可以互补的(一阶/高阶),但 CNN 或 Transformers 都无法同时将二者应用在单个计算模块中,因为二者的计算模式不同,图像运算中点积过多。本文,作者系统地推导了一个全局自注意力近似机制,对变换特征,通过卷积操作来近似实现自注意力。基于该机制,作者构建了一个多分支基础模块,由卷积和自注意力组成,能够统一局部和非局部特征的传递。一旦训练好了,这个多分支模原创 2021-06-24 11:39:09 · 420 阅读 · 1 评论 -
Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual Categorization 论文学习
AbstractILSVRC(ImageNet大规模视觉识别挑战赛)是计算机视觉领域最权威的学术竞赛之一。直接将 ILSVRC 每年的冠军方案应用在细粒度视觉分类(FGVC)任务上无法取得很好的表现。对于 FGVC 任务而言,类间差异小而类内差异大的特点使这个问题变得很有挑战性。本文的注意力目标定位模块(AOLM)可以预测目标的位置,注意力局部提议模块(APPM)可以发现信息丰富的局部区域,无需边框或部分标注信息的帮助。得到的目标图像不仅包含目标的全部结构,也包含更多的细节信息,局部图像有多个不同的尺度和原创 2021-04-03 17:56:08 · 2773 阅读 · 1 评论 -
An image is worth 16x16 words: Transformers for image recognition at scale 论文学习
论文地址:https://arxiv.org/pdf/2010.11929.pdfAbstract尽管 Transformer 结构已经成为 NLP 领域的一个事实上的标准方法,它在计算机视觉领域中的应用仍受限制。在视觉领域,注意力要么与卷积网络搭配使用,要么替换掉卷积网络中的特定组成,保留其整体结构。作者证明我们并不是一定要依赖 CNN,直接用 Transformer 对图像块序列做预测也能在图像分类任务上取得不错的表现。当我们在大规模数据集上预训练,然后再在多个中等规模或小规模数据集(ImageNe原创 2021-02-26 18:11:42 · 288 阅读 · 0 评论 -
Deformable Convolutional Networks 论文学习
Abstract由于构造卷积神经网络 (CNN) 所用的模块中几何结构是固定的,其几何变换建模的能力本质上是有限的。本文中,作者引入了两个新的模块,增强 CNN 变换建模的能力,即可变形卷积和可变形 RoI 池化。它们两个都是基于通过额外的偏移量来增强模块中空间位置采样的思想,和从目标任务中学习偏移量的思想,无需额外的监督。该新模块可以很容易地替换现有 CNN 中的结构,通过标准的反向传播来端到端地训练,从而得到可变形的卷积网络。大量的实验结果证明了该方法的有效性。这是第一次有人证明了,学习密集的空间变换原创 2021-02-14 15:36:34 · 246 阅读 · 0 评论 -
Deformable DETR 论文学习
AbstractDETR 提出在目标检测方法中去除人为组件,也可保持优异性能。但由于 Transformer 注意力模块只能有限地处理图像特征图,它的收敛速度就比较慢,特征空间分辨率有限。为了缓解这些问题,作者提出了 Deformable DETR,其注意力模块只会关注目标框周围少量的关键采样点。Deformable DETR 能够取得比 DETR 更优异的性能(尤其在小物体上),训练 epochs 要少10×10\times10×倍。在 COCO 基准上大量的实验证明了该方法的有效性。代码位于: htt原创 2021-02-13 13:23:07 · 12768 阅读 · 1 评论 -
End-to-End Object Detection with Transformers 论文学习
Abstract本文提出了一个新的方法,将目标检测看作一个直接的集合预测问题。该方法让检测变得更简洁,去除了人为设计的后处理步骤如 NMS 或 anchor 生成,显式地编码了关于任务的先验知识。该框架的主要结构叫做 DEtection TRansformer 或 DETR,基于集合的全局损失,通过二分匹配和一个 transformer 编码器-解码器架构来做到唯一的预测。给定一个固定小集合的目标,DETR 会推理出这些目标与全局图像环境的关系,并行地直接输出最终的预测集合。和其它检测器相比,该模型在概念原创 2021-02-10 21:34:03 · 510 阅读 · 0 评论 -
DEFT: Detection Embeddings for Tracking 论文学习
Abstract目前大多数的多目标跟踪系统都是通过检测再跟踪的方式实现,一个目标检测器后面跟着一个检测结果关联的方法。将运动和外观特征结合起来实现跟踪已经有了很长的历史,对遮挡严重问题也具有一定的鲁棒性,但是通常所需的算力要更高,实现起来要更慢。最近在 2D 目标追踪基准上所取得的成功表明,通过一个 SOTA 检测器和相对简单、仅依赖单帧空间位置的关联方法,我们可以取得很高的分数,显著地超过那些通过外观特征学习来帮助重新识别已丢失目标的方法。本文中,作者提出了一个高效率的协同检测和追踪的方法,叫做 DEF原创 2021-02-09 14:45:48 · 1105 阅读 · 2 评论 -
SA-NET: Shuffle attention for DCNN 论文学习
Abstract原创 2021-02-08 15:33:02 · 4671 阅读 · 1 评论 -
FcaNet: Frequency Channel Attention Networks 论文学习
Abstract注意力机制,尤其是通道注意力,在计算机视觉领域取得了巨大成功。许多工作都关注在如何设计高效率的通道注意力机制,而忽略了一个基本问题,就是将全局平均池化(GAP)作为预处理的方法。本文从一个不同的角度出发,通过频域分析重新思考了通道注意力。基于频域分析,作者数学上证明了传统的 GAP 是在频域上的特征分解的特例。基于该证明,作者归纳了频域内通道注意力机制的预处理,提出了多频谱通道注意力的 FcaNet。该方法简单但高效。对于现有的通道注意力方法,我们只需改变其中一行代码就可实现。而且,该方法原创 2021-02-04 15:29:26 · 959 阅读 · 1 评论 -
YOLObile: Real-Time Object Detection on Mobile Devices via Compression-Compilation Co-Design 论文学习
Abstract目标检测技术的突飞猛进与广泛应用使人们开始去关注目标检测器的准确率和速度。但是,目前 SOTA 的目标检测方法要么是通过一个大型网络来实现高准确率,要么用一个轻量级模型来追求速度,但牺牲了精度。本文中,作者提出了一个 YOLObile 框架,通过压缩-编译协同设计在移动设备上的实时的目标检测方法。提出了一个新的、针对任意核大小的 block-punched 裁剪机制。为了提高它在移动设备上的计算效率,作者采用了一个 GPU-CPU 协同机制和先进的编译器辅助优化方案。实验结果表明该裁剪机制原创 2021-02-02 16:42:38 · 925 阅读 · 0 评论 -
End-to-End Object Detection with Fully Convolutional Network 论文学习
Abstract主流的基于全卷积网络的目标检测器取得了优异的表现。但是它们中的大多数都需要一个人为设计的 NMS 后处理步骤,这就阻碍了端到端的训练。本文中作者认为要想抛弃 NMS,合理的标签分配策略很关键。于是作者提出了一个用于分类的预测一对一(POTO)的标签分配策略,实现端到端的检测,可实现与 NMS 相当的表现。此外作者也提出了一个 3D Max 滤波(3D Max Filtering),利用多尺度特征,提升局部区域中卷积的可判别性。有了这些方法,我们就可实现端到端的框架,在 COCO 和 Cro原创 2021-02-01 18:39:18 · 848 阅读 · 0 评论 -
Object Detection Made Simpler by Eliminating Heuristic NMS 论文学习
Abstract本文提出一个简单的无需 NMS、端到端的目标检测方法,该网络只需对单阶段目标检测器如 FCOS 做极小的修改。与原来的单阶段检测器相比,本文方法的检测准确率与之相同,甚至要更好。它的推理速度差不多一样,但是结构要更简单,因为它去除了后处理 NMS。如果对于图像中的每个ground-truth目标实例,网络能够用一个正样本精准地识别出,则NMS就是不需要的。添加一个紧凑的 PSS head,我们就可以做到自动地给每个实例选取一个正样本(如图1所示)。因为学习目标函数包含了一对多和一对一的标签原创 2021-01-30 02:04:30 · 1129 阅读 · 1 评论 -
Regularizing Deep Networks with Semantic Data Augmentation 论文学习
Abstract众所周知,数据增广是正则化深度网络简单而有效的办法。传统的数据增广方法如翻转、平移或旋转都是低级别、与数据无关且类别无关的操作,导致增广样本的多样性很有限。本文提出了一个新颖的语义数据增广算法,弥补传统方法的不足。该方法受深度网络的一些特性启发,深度网络善于学习线性特征,即深度特征空间内特定方向对应的、有意义的语义变换,比如改变目标的背景或视角。基于此发现,沿着特征空间内的这些方向平移训练样本,就可以有效地扩充数据集的多样性。为了实现这个想法,作者首先介绍了一个采样方法,它可以有效地给出语原创 2021-01-29 15:15:02 · 1602 阅读 · 0 评论 -
Refining activation downsampling with SoftPool 论文学习
AbstractCNN 使用池化操作来降低激活图的大小。该过程对于空间不变性的实现和后续卷积感受野的增大很关键。池化操作应该将激活图的信息损失降到最低。同时,计算量和内存消耗应该极其有限。为了满足这些要求,作者提出了 SoftPool:对指数加权激活值求和的快速高效的方法。与其它池化方法相比,SoftPool 会在下采样过程中,保留更多的信息,也就意味着更高的分类准确率。在 ImageNet1K 数据集上,作者将许多常用 CNN 网络的池化操作替换为 SoftPool,实现了准确率1−2%1-2\%1−2原创 2021-01-27 09:09:18 · 711 阅读 · 1 评论 -
Confluence: A Robust Non-IoU Alternative toNon-Maxima Suppression in Object Detection 论文学习
Abstract针对目标检测边框选取和抑制问题,本文提出了一个可以替代NMS的新方法。该方法 Confluence 不依赖于边框的置信度得分来选取最佳边框,它也不需要 IOU 来去掉错误的候选框。它使用曼哈顿距离,在 cluster 内,选择距离其它所有边框最接近的边框,去掉高度融合的相邻边框。因此,Confluence 是一种新的边框选择与抑制方法,因为它的基础原理与NMS等方法本质上不一样。Confluence 在MS COCO 和 PASCAL VOC 2007 数据集上,通过 RetinaNet、原创 2021-01-25 17:28:25 · 445 阅读 · 0 评论 -
ResizeMix: Mixing Data with Preserved Object Information and True Labels 论文学习
Abstract数据增广是提升数据多样性的有效办法,可大幅改进图像识别任务中模型的泛化性。最新的、基于增广方式的数据混合取得了巨大成功。CutMix 使用一个简单而有效的办法,从图像中随机裁剪图像块,然后拼贴到另一个图像上去,改进分类器性能。为了进一步提升 CutMix 的表现,人们使用图像的显著信息来指导其运作。作者系统地研究了显著信息的重要性,发现显著信息对于促进增广的表现并不是很必要的。而且,作者发现基于裁剪的数据混合方法可能有2个问题,标签错误分配和物体信息丢失问题,无法同时解决掉。作者提出了一个原创 2021-01-20 10:38:49 · 857 阅读 · 1 评论 -
Scaled-YOLOv4: Scaling Cross Stage Partial Network 论文学习
Abstract作者证明基于 CSP 方法的 YOLOv4 目标检测网络可以进行放大和缩小,在保证准确率和训练速度的同时应用在大网络和小网络上。作者提出了一个网络缩放方法,不仅修改深度、宽度和分辨率,也可修改网络结构。YOLOv4-large 模型取得了 state of the art 的效果:在 MS COCO 数据集上 55.4%55.4\%55.4% 的 AP(73.3%73.3\%73.3% AP50),在 Tesla V100 上的速度是15 FPS。据我们所知,这是目前在 COCO 数据集上原创 2021-01-19 11:10:39 · 924 阅读 · 1 评论 -
BoxInst: High-Performance Instance Segmentation with Box Annotations 论文学习
Abstract本文提出了一个实现 mask 级实例分割的高性能方法,训练时只需使用边框标注。本文中,作者只用到了一个简单的设计就可以实现显著的性能提升,在COCO数据集上 mask AP 由 21.1%21.1\%21.1%大幅提升到了31.6%31.6\%31.6%。本文核心思想重新设计实例分割中的 mask 学习损失函数,无需修改分割网络本身。新的损失函数无需 mask 标注,就可监督 mask 的训练。它是通过以下两个损失项做到的:1) 一个最小化 ground-truth 边框映射和预测 mas原创 2021-01-16 00:10:16 · 1925 阅读 · 1 评论 -
OneNet: Towards End-to-End One-Stage Object Detection 论文学习
OneNet: Towards End-to-End One-Stage Object DetectionAbstract1. IntroductionAbstract截至目前,端到端的单阶段目标检测仍落后于其它方法。本文研究发现,在标签分配过程中,候选样本与 ground-truth 之间缺少分类损失,这是单阶段检测器无法去除 NMS、实现端到端的主要障碍。现有单阶段目标检测器仅通过定位损失来赋予标签,比如 box IOU 或者点距离。不靠分类损失,在推理过程中,单凭定位损失会得到许多冗余的高置信度边原创 2021-01-11 14:27:47 · 445 阅读 · 0 评论 -
调研:暴力恐怖犯罪识别(图像识别)
一、方法:分类、目标检测、人体姿态分析1、腾讯优图:(接口:https://ai.qq.com/doc/imageterrorism.shtml)图片分类(属性):13类terrorists:恐怖分子; normalarmy:普通军;knife:刀;guns:枪;blood:血;fire:火;flag:旗帜;crowd:人群;ship:船;aircraft:飞机;cannon:大炮;armoredcar:装甲车;other_weapon:其他武器腾讯优图暴恐识别结果:2、百度暴恐识别:转载 2020-12-28 17:31:44 · 4451 阅读 · 1 评论