![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DeepLearning
文章平均质量分 88
AICVHub
计算机本硕/高级算法工程师/数据分析师/算法架构师/人工智能领域优质创作者/CSDN博客专家,专注人工智能领域知识分享,从paper解读、原理解析,到算法落地与工程应用;领域包括:机器学习/深度学习/计算机视觉/结构化数据分析与挖掘;topic包括但不限于:图像分类、图像识别、目标检测、图像分割、图像检索等;擅长从工程角度解决业务痛点,曾负责多项大型AI项目落地。
展开
-
SCNet: 全1*1卷积的轻量图像超分辨率
深度学习模型尤其是大卷积核(3*3或更大)在单图超分辨率(single image superresolution,SISR)上取得显著进展。然而,庞大的计算量阻碍其在实时、资源受限环境中的应用。相反,1*1卷积在计算效率上能力可观,但却在局部空间表示聚合方面能力不足,而这恰恰却是SISR模型所需要的基本能力。原创 2024-06-05 09:34:44 · 606 阅读 · 0 评论 -
PeLK: 大卷积核强势回归,高达101 × 101,提出了外围卷积
PeLK:超大卷积核,高达101*101!原创 2024-04-27 14:45:42 · 1685 阅读 · 0 评论 -
RepViT:当MobileNet遇到ViT
近期,在资源受限的的移动设备上,轻量ViTs表现出了比CNNs更好的性能和更低的延迟。研究人员发现了轻量级vit和轻量级cnn之间的许多结构联系。然而,尚未充分检查它们之间的块结构、宏观和微观设计的显着架构差异。在这项研究中,我们从 ViT 的角度重新审视轻量级 CNN 的有效设计,并强调它们对移动设备的前景。具体来说,我们通过集成轻量级 ViT 的有效架构设计,逐步增强标准轻量级 CNN(即 MobileNetV3)的移动友好性。这最终得到了一系列新的纯轻量级cnn,即RepViT。原创 2024-04-24 10:00:04 · 1026 阅读 · 0 评论 -
T-Rex:检测一切 | 基于视觉提示的开集检测器,检测并计数
T-Rex,一种开集检测一切、计数一切、实例分割一切的模型,主页可以试玩。原创 2023-11-29 11:38:03 · 2431 阅读 · 0 评论 -
MODNet:基于目标分解的实时trimap-free肖像抠图
本文提出了一种轻量级、trimap-free的目标分解网络(MODNet),关键思想是通过显式约束同时优化一系列子目标。此外,还提出了一个高效的 空洞空间金字塔池 (e-ASPP) 模块来融合多尺度特征以进行语义估计,一种自监督子目标一致性(SOC)策略,使MODNet适应真实世界的数据,以解决无trimap方法常见的域转移问题原创 2023-11-08 13:42:08 · 1001 阅读 · 0 评论 -
Deep Image Matting:深度学习Matting开山之作
在此之前的Matting方法要么是用传统方法,要么是传统+深度学习的组合,他们都难以达到理想效果。因此,本文提出了一个利用trimap来作为辅助输入,并完全使用深度学习方法来进行Matting的方法,这开创了trimap-based Deep Learning Matting的先河。原创 2023-11-03 14:19:38 · 377 阅读 · 0 评论 -
PP-Matting:trimap free的高精度自然图像抠图
介绍了PP-Matting,一种trimap-free的高精度自然图像抠图方法,通过SCB和HRDB分支分别获取语义上下文和细节特征,从而获取高精度的Matting结果。原创 2023-11-03 10:57:42 · 980 阅读 · 0 评论 -
YOLACT: 实时实例分割
one-stage实时实例分割网络——YOLACT,论文解读原创 2023-11-02 14:45:43 · 247 阅读 · 0 评论 -
AdaBins:使用自适应bins进行深度估计
本文主要解决了从单个RGB输入图像估计高质量密集深度图的问题。我们从一个baseline的encoder-decoder CNN结构出发,提出一个问题:信息的全局处理如何帮助提高整体深度估计?为此,我们提出了一种基于transformer的架构块,它将深度范围划分为多个 bin,而每个bin的中心值是根据每个图像自适应估计的,最终的深度值估计为 bin 中心的线性组合。我们将这种新的构造块称为AdaBins。我们的结果显示,在所有指标上,在几个流行的深度数据集上都比现有技术有了决定性的改进。原创 2023-10-30 17:29:24 · 490 阅读 · 0 评论 -
PP-MobileSeg: 探索移动设备上又快又准的语义分割模型
transformer在CV领域的成功之后,出现了很多在移动设备上使用它们的尝试性工作,但是这些工作在某些实际应用中的表现仍然不能令人满意。为了解决这个问题,本文提出PP-MobileSeg——一个在移动设备上达到SOTA的语义分割模型。包含了4个stage的StrideFormer backbone 由MV3块和SEA注意力模块构建,能够以最小的参数量提取丰富的语义信息与细节特征;AAM则首先通过语义特征集成投票过滤细节特征,然后将它们与语义特征相结合以增强语义信息;原创 2023-10-30 14:46:37 · 755 阅读 · 0 评论 -
基于coco数据集的人体关键点分布示意图与数据集解析
本文绘制了coco中人体姿态关键点的分布示意图,并解释了每个关键点的含义。原创 2023-05-26 10:06:46 · 4019 阅读 · 4 评论 -
一种人体属性识别的网络结构
人体属性识别,是一个典型的多标签分类场景。每个人体有多个标签,如年龄、性别、衣着颜色等,而每个属性又有多种类别,如年龄分儿童青年老人、性别分男女、颜色分红绿青蓝紫...本文提供了一个网络结构来执行这种任务。原创 2023-06-22 21:25:25 · 406 阅读 · 0 评论 -
AdaptivePose: 人体姿态估计新思路,将人体部位表示为自适应点
提出了一种人体表示的新范式:将人体建模为一个中心点+七个部位自适应点集;并设计了一个center-to-part-to-joint的pipline进行one-stage多人姿态推理。原创 2022-10-20 20:00:00 · 1015 阅读 · 0 评论 -
SNL: 统一神经网络的Non-local块
一种新的nonlocal块: SNL, 从谱域统一nonlocal的解释.原创 2021-09-24 10:53:46 · 1360 阅读 · 0 评论 -
CompConv: 一种用于高效特征学习的紧凑卷积模块
CompConv是一种紧凑的卷积模块,采用分治策略,降低了计算开销,可以替代传统卷积,即插即用。原创 2021-08-19 08:56:57 · 790 阅读 · 6 评论 -
X-volution:统一卷积与自注意力
本文提出了一个X-volution模块,对卷积和自注意力进行了统一,使得模块兼具CNN的局部特征提取能力和注意力的全局建模能力。同时,还对训练-推理阶段进行解耦,训练时使用多分支拓扑,推理时使用单分支的原子操作。原创 2021-08-02 15:29:45 · 1121 阅读 · 0 评论 -
Dynamic Head:统一目标检测Heads和注意力
在目标检测方法中,由于分类和定位组合的复杂性,产生了多种多样的算法。这些算法尝试在检测heads上提升性能,不过它们缺乏一种统一的视角来看待检测问题。基于此,本文提出了一个新颖的动态head框架,将注意力机制与目标检测Heads统一起来。原创 2021-07-05 17:02:59 · 6829 阅读 · 0 评论 -
External Attention(EA):超越自注意力,仅用两个线性层
External Attention(EA),使用两层线性层构建了一个注意力模块,能够建模不同样本之间的潜在联系,超越了自注意力(SA)!原创 2021-06-03 14:55:37 · 6199 阅读 · 2 评论 -
2021图像检索综述
本文是2021年最新的关于图像检索的综述,介绍了基于内容的图像检索(content based image retrieval, CBIR)在深度学习技术上的进展。原创 2021-05-25 14:08:14 · 16263 阅读 · 6 评论 -
2021深度学习目标检测综述
2021年,目标检测最新综述。包括:两阶段、一阶段检测器以及轻量网络的的发展历程。原创 2021-05-21 14:06:08 · 32268 阅读 · 10 评论 -
BlurPool:Making Convolutional Networks Shift-Invariant Again【附Pytorch实现】
带有步长的操作,如Conv、MaxPooling、AvgPooling,都会带来平移不变性的丢失。作者通过引入信号处理领域通过低通滤波器抗混叠的原理,提出了BlurPool,将其融合现有方法中,有效缓解了平移不变性的丢失。原创 2021-05-14 09:41:29 · 2784 阅读 · 1 评论 -
CoordConv:给卷积加上坐标,从而使其具备了空间感知能力【附Pytorch实现】
传统卷积具备平移不变性,这使得其在应对分类等任务时可以更好的学习本质特征。不过,当需要感知位置信息时,传统卷积就有点力不从心了。为了使得卷积能够感知空间信息,作者在输入feature map后面增加了两个coordinate通道,分别表示原始输入的x和y坐标,然后再进行传统卷积,从而使得卷积过程可以感知feature map的空间信息,该方法称之为CoordConv。使用了CoordConv之后,能够使得网络可以根据不同任务需求学习平移不变性或者一定程度的平移依赖性。原创 2021-06-18 13:56:21 · 12791 阅读 · 14 评论 -
CBAM:通道注意力+空间注意力【附Pytorch实现】
通道注意力+空间注意力,可嵌入在大部分的主流网络中,在不显著增加计算量和参数量的前提下能提升模型的特征提取能力。原创 2021-06-12 09:46:49 · 10440 阅读 · 3 评论 -
SE:通道注意力模块【附Pytorch实现】
ImageNet最后一届比赛的冠军作品,其先将空间信息压缩到一个响应值,然后对原feature map进行加权。原创 2021-06-10 08:48:55 · 12616 阅读 · 5 评论 -
PP-YOLOv2: PP-YOLO升级,超越YOLOv5
PP-YOLO再升级,加入了Path Aggregation Network、Mish Activation Function、Larger Input Size、IoU Aware Branch等tricks,并一举超过YOLOv5.原创 2021-05-19 16:52:45 · 1299 阅读 · 0 评论 -
PP-YOLO: 基于YOLOv3改进,超过YOLOv4,速度与精度齐飞的目标检测器
百度出品,基于YOLO3,使用各种tricks进行改进,得到了超越YOLO4的分类器。原创 2021-05-17 15:44:12 · 3228 阅读 · 1 评论 -
MLP-Mixer:谷歌提出CV新坑,纯MLP架构
Make MLPs Great Again?纯MLP架构,没有卷积和attention!以后CV领域就是CNN、Transformer、MLP三足鼎立了~原创 2021-05-08 13:40:25 · 1276 阅读 · 0 评论 -
Swin Transformer: 使用滑动窗口的分层视觉transformer
微软亚洲研究院出品,屠榜各大cv任务,代码于2021.04.12开源。Swin Transformer主要有两个创新点:1、图片切分多个patch,并在patch内部进行self-attention,从而降低计算量;2、构建层次化transformer模型,类似传统CNN的backbone,因此可以无缝衔接到各类框架中。原创 2021-04-19 09:07:54 · 4112 阅读 · 2 评论 -
CNN插件:把YOLOF中的Encoder变为一个Pytorch插件
将YOLOF中的Dilated Encoder修改为纯Pytorch版的插件,以期和其他网络结合使用。原创 2021-04-13 09:52:41 · 574 阅读 · 0 评论 -
机器学习中的方差和偏差
偏差:算法在训练集上的错误率;方差:偏差 - 算法在测试集上的错误率;靶心图理解偏差(bias)、方差(variance)的关系:低偏差、高方差:意味着模型训练过拟合了,导致泛化性能较差; 高偏差、高方差:意味着模型训练不够好,没有能从训练集学习到足够的知识,即“欠拟合”,同时,泛化也不好;模型同时过拟合和欠拟合; 高偏差、低方差:意味着模型泛化尚可,但训练不够好,欠拟合了; 低偏差、低方差:是我们最想要的情况,模型训练足够好,泛化足够好;...原创 2021-05-11 10:44:45 · 548 阅读 · 0 评论 -
YOLOF:丢掉FPN,比YOLOv4更快!
你只需看一次特征——YOLOF!去掉了FPN,在不掉点的前提下,提升了推理速度,比YOLOv4更快。原创 2021-03-22 09:16:51 · 1403 阅读 · 0 评论 -
DLA:深层聚合的轻量backbone
DLA主要提出了IDA和HDA两种聚合方式,来聚合不同通道、尺度、分辨率的层或者块。通过聚合,得到的特征表达能力更强,且对参数的利用率更高。原创 2021-04-12 11:27:17 · 1346 阅读 · 0 评论 -
CenterNet2:CenterNet再升级,原作者提出基于概率解释的两阶段目标检测
CenterNet(Objects as Points)原作者的又一力作,超过YOLOv4。其在两阶段目标检测框架中引入概率解释:第一阶段推断出目标vs背景的似然性,第二阶段得到具体类别的分类得分。原创 2021-03-17 17:54:57 · 11223 阅读 · 13 评论 -
KeepAugment:一种简单的信息保留数据增强方法
提出了一种名为KeepAugment的数据增强方法,通过显著图检测原图图像中的重要区域,然后在数据增强的过程中避开这个区域,并对区域之外的部分进行变换,从而保留了主要信息,避免在数据增强过程中对这部分信息的破坏。原创 2021-05-07 15:20:38 · 1427 阅读 · 2 评论 -
Pyramid Vision Transformer(PVT): 纯Transformer设计,用于密集预测的通用backbone
本文主要提出了一个纯Transformer的模型——PVT,可以作为下游密集预测的backbone使用。还设计了一个渐进缩减金字塔和一个空间缩减注意力层,在有限的资源下获取多尺度的、更高分辨率的输出。原创 2021-03-15 09:01:04 · 15571 阅读 · 6 评论 -
OneNet:丢掉NMS,基于分类损失的端到端一阶段目标检测
论文地址:http://arxiv.org/abs/2012.05780官方代码:https://github.com/PeizeSun/OneNet目录0、摘要1、引言2、标签分配:最小损失3、OneNet4、实验结果0、摘要本文主要提出了一个端到端的一阶段目标检测方法——OneNet。之前的一阶段目标检测方法分配标签的方式主要是位置损失,如box IOU或者样本与GT之间的中心点距离。而所提出的OneNet额外引入了一个分类损失,总损失为分类损失和位置损失之和。正.原创 2021-03-26 09:03:43 · 307 阅读 · 0 评论 -
Strip Pooling:提出一种长条形的池化核
本文主要是提出了一种新的池化方法——条纹池化,其通过长而窄的池化核可以建模长距离依赖关系。基于这种池化方式,设计了两个模块:条纹池化模块SPM用于增加backbone的感受野、混合池化模块MPM用于同时捕获长、短距离的上下文信息。原创 2021-03-20 16:36:59 · 2755 阅读 · 0 评论 -
SETR:将transformers用于语义分割
SETR作为transformer入侵语义分割领域的一个战果,其通过使用transformer代替encoder,从而获取大感受野以充分建模全局上下文信息。这篇博客是SETR的通读与大意翻译。原创 2021-03-11 09:10:12 · 7199 阅读 · 0 评论 -
RepVGG:使用自己的数据集进行训练、模型转换、推理
本篇博客的目的,是介绍如何使用自己的数据集训练一个RepVGG模型。原创 2021-02-23 16:23:55 · 6077 阅读 · 33 评论 -
DETR:使用transformer进行端到端目标检测
本文主要是基于transformers和双边匹配损失设计了一种新的目标检测范式——DETR,可以直接进行one-to-one预测。在COCO数据集上,DETR与高度优化的Faster RCNN性能相当。DETR应用简单,且拥有固定结构,可方便的扩展到全景分割等领域,并能达到不错的效果。此外,在大型目标的效果上, 是由于Faster RCNN的,这可能是因为DETR中的大量自注意力机制的应用使得模型能够捕获全局上下文信息,从而对大目标友好。原创 2021-02-18 10:39:01 · 3035 阅读 · 4 评论