![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
计算机视觉
文章平均质量分 89
不会算命的赵半仙
这个作者很懒,什么都没留下…
展开
-
论文阅读-多任务(2021)-YOLOP:用于自动驾驶目标检测与语义分割的实时多任务模型
全景驾驶场景感知网络YOLOP包括一个共享的编码器和三个特定的解码器处理不同任务,解码器之间没有复杂的共享机制,保证网络的端到端高效训练。原创 2022-04-24 10:54:48 · 1664 阅读 · 1 评论 -
论文阅读-多任务(2020)-KL4MTL:用于多任务学习的知识蒸馏方法
多任务学习的目标是使得单个模型能够在多个任务上取得较好的结果,这样能够降低计算代价。该种模型的学习过程需要同时优化多种任务的损失,这些任务有着不同的学习难度、不同的维度以及不同的特征,对应着不同的损失函数,这很容易导致各个任务之间的学习程度不均衡。为此论文提出了一种用于多任务的蒸馏方法,首先为每个任务学习一个专用模型,然后学习一个多任务的模型用于最小化每个特定任务模型的损失并为单个模型生成相同特征。而专用模型会生成各自的特征,因此论文引入了一个针对单个任务的特征适配器来将多任务模型的特征映射到单一任务模型特原创 2022-04-22 09:52:07 · 1231 阅读 · 0 评论 -
论文阅读-主干网络(2022)-ConvNext:下一代卷积网络
论文重新对传统卷积网络的设计空间以及其他局限进行测试,逐步将ViTs中的一些Tricks应用到标注的ResNet中,发现了一些能够提升网络性能的关键因素,最终输出的网络命名为ConvNext原创 2022-04-20 09:39:39 · 2220 阅读 · 0 评论 -
论文阅读-语义分割(2021)-BiSeNetV3:重新思考用于实时语义分割的BiSeNet模型
主干网络为STDCNet,Stage3、4、5输出的特征图下采样率分别为8、16、32,然后对大感受野的特征图应用全局平均池化,并应用ARM模块将两个不同阶段的特征图融合后,再与来自Stage3的特征图进行融合,输出8x下采样的特征图,最终分割头使用3×3CBR模块、1×1卷积和一个8x上采样来获得最终分割结果。原创 2022-04-18 11:30:56 · 1888 阅读 · 0 评论 -
论文阅读-目标检测(2019)-CenterNet:目标检测转化为关键点检测及其属性回归
CenterNet将目标检测问题转换为一个标准的关键点估计问题,首先将图像喂给一个全卷积网络产生热点图,图上的峰值点对应目标的中心,每个峰值点附近的图像特征来预测目标的宽高,模型训练的方法使用的是标准的密集任务有监督学习,推断则是完全端到端没有nms后处理的方法。原创 2022-04-14 15:27:44 · 750 阅读 · 0 评论 -
论文阅读-语义分割(2021)-DDRNet:用于实时道路场景精准分割的深度冗余分辨率网络
DDRNet用于道路场景的实时分割模型,模型基本流程如下图所示,网络经过一个主干模块后分为两个具有不同分辨率的平行分支,一个分支保持较高的分辨率另一个分支则通过多阶段下采样操作获得丰富的语义信息,两个分支的信息融合则通过双向桥接模块完成,模型最后还添加了一个DAPPM模块增加感受野以提取更丰富的语义信息。原创 2022-04-11 10:16:01 · 1432 阅读 · 0 评论 -
ML/DL-复习笔记【十】- 分组卷积和深度可分离卷积的区别
> 本节为ML/DL-复习笔记【十】- 分组卷积和深度可分离卷积的区别,主要内容包括:分组卷积与深度可分离卷积的参数量分析。原创 2021-07-19 21:56:33 · 813 阅读 · 0 评论 -
(CVPR2020 Oral)用于实时实例分割的Deep Snake方法
CVPR 2020 Oral Paper,用于实时实例分割的DeepSnake方法,论文采用一组连续有序的点组成物体轮廓,使得参数量大大降低更接近与目标检测中bounding box的参数量,也适用于文字与细胞的分割。该方法的基本思路是用深度学习方法改进传统snake方法【"Kass, Michael, Andrew Witkin, and Demetri Terzopoulos. Snakes: Active contour models.In IJCV, 1988."】的优化过程,最终在多个数据集上原创 2021-07-19 21:55:34 · 470 阅读 · 1 评论 -
SINet: 使用空间压缩模块和信息遮挡编码器的极轻量人像分割模型
人像分割任务作为许多任务的一个中间阶段,对实时性要求极高,并且当前缺乏大规模的人像分割数据集,为此论文提出SiNet模型和用于进行数据扩充的简单方法。SINet中的空间压缩模块使用多尺度感受也来获取图像中不同尺寸的一致性信息,信息遮挡编码器则在不破坏全局一致性的前提下回复局部空间信息。该模型能够实现精度较高速度极快的人像分割,并且这种极轻量化的分割网络也在其他任务中给了我们应用的启发。论文地址工程地址 SINet包含空间压缩模块和信息遮挡编码器,前者通过使用多种尺寸的感受野信息来保持空间一致.原创 2021-04-22 14:23:15 · 477 阅读 · 0 评论 -
ExtremeC3Net: 使用高级C3模块的极轻量人像分割模型
人像分割任务作为许多任务的一个中间阶段,对实时性要求极高,并且当前缺乏大规模的人像分割数据集,为此论文提出ExtremeC3Net模型和用于进行数据扩充的简单方法。ExtremeC3Net基于改进的C3模块,能够实现精度较高速度极快的人像分割,并且这种极轻量化的分割网络也在其他任务中给了我们应用的启发。论文地址工程地址1. 改进的C3模块 之前的文章提到过C3模块,即Concentrated-Comprehensive Convolution Module,其指出了轻量化语义分割网络中常用.原创 2021-01-16 13:31:25 · 1326 阅读 · 1 评论 -
C3模块-空洞可分离卷积存在的问题及轻量化语义分割模型架构技巧
C3即"Concentrated-Comprehensive Convolution",文章指出轻量化语义分割模型多采用空洞可分离卷积,但是文章指出这种方式存在的信息损失,。论文地址工程地址 构建轻量化语义分割模型的一种方式是使用深度空洞可分离卷积,但是空洞卷积和深度可分离卷积两种方式的简单结合,形成了一个过于简单的操作,造成了特征图的信息损失导致模型表现衰退(深度可分离卷积对标准卷积的不恰当近似;空洞卷积造成的相邻像素信息损失即网格效应),为此提出了C3模块,分为两个阶段,第一个阶段使用两个深.原创 2021-01-15 16:32:16 · 3345 阅读 · 2 评论 -
StyleGAN v2:对StyleGAN v1的思考与改进
StyleGAN v2在v1的基础上进行了改进,着重处理的伪影问题,被CVPR2020收录,能够生成质量更好的图像数据。其在style mixing策略,progressive growing生成方式、插值方式等方面对v1进行了改进。StyleGAN v2论文地址工程地址 StyleGAN v1 一步一步地生成人工的图像,从非常低的分辨率4×44×44×4开始,一直到高分辨率1024×10241024×10241024×1024。通过分别地修改网络中每个级别的输入,它可以控制在该级别中所表示的视.原创 2021-01-14 11:20:04 · 2035 阅读 · 0 评论 -
StyleGAN v1 :用于生成高质量图像数据的生成对抗方法
StyleGAN是2018年的一篇文章,目前已经被TPAMI收录,该方法能够生成高质量的图像数据并且做到了高层特征可控,v1的主要工作在于设计了一个style-based生成器,其中包括了styles mixing的策略,图像随机特征的生成方式以及自适应的实例正则化的设计。StyleGAN v1论文地址工程地址 StyleGan v1的主要工作,是对将有效的信息latent code表示直接灌给输入层的传统生成器的重新设计,如下图所示: 理解style-based生成器的设计需要从以下几个.原创 2021-01-09 15:18:42 · 1146 阅读 · 0 评论 -
CVPR 2020-FaceShifter:能够应对脸部遮挡的高保真换脸方法
Face Shifter是CVPR202的一篇文章,是一个两阶段的,可用于任意两张人脸图像换脸的模型,由AEI-Net和HEAR-Net两部分组成,经过合适的训练,AEI-Net本身就已经可以得到不错的换脸效果,在此基础上,可以再训练一个HEAR-Net,着重解决目标图像脸部遮挡问题,并进一步对换脸效果进行优化。模型推理速度不俗,并且能够生成质量较高的换脸结果。论文地址工程地址1工程地址21. AEI-Net:Adaptive Embedding Integration Network AE.原创 2021-01-08 15:50:23 · 1319 阅读 · 0 评论 -
ICCV2019-FSGAN:实现任意两张人脸图片换脸的GAN方法
Face Swap Gan是ICCV19的一篇文章,模型看起来比较复杂,总体结构是三个生成器和一个语义分割网络组成,能够实现任意两张人脸图片较好的换脸效果,在视频人脸重建中效果也比较好。论文地址工程地址 将一个换脸任务简单表述为给定两张任意的图片A和B,将图片A中的人脸换到图片B中的人脸上,方法整体的大致流程如下:输入图片A和B,首先调用第三方模型得到人脸B的欧拉角,然后利用生成模型Gr根据这个角度和人脸A,生成姿态角度与人脸B一致但保存A脸特征的人脸A’,接着利用分割模型S得到人脸B的脸部区域.原创 2021-01-04 16:17:41 · 4198 阅读 · 0 评论 -
语义分割模型架构演进与相关论文阅读
本文总结分析了主流语义分割模型架构演进过程,涉及FCN、DeepLab系列、RefineNet、PSPNet、BiSeNet、FastFCN、ConvCRFs、DUpsampling、DFANet、DANet、FickleNet、LedNet、ACNet等在内的20多个模型,本来是2019年一次组会的分享,这里重新总结,就当复习一下了。原创 2020-06-24 09:22:52 · 725 阅读 · 0 评论 -
图像语义分割(7)-PSPNet:金字塔型场景解析网络
提出具有全局优先级并且包含不同子区域的不同尺度信息的pyramid pooling module,论文的另一个贡献是提出了基于深度监督损失的有效的ResNet的训练方法原创 2018-12-03 22:06:08 · 2152 阅读 · 0 评论 -
(ICLR2019)论文阅读-使用深度增强学习框架的基于场景先验知识的视觉语义导航
论文的目标是使用场景先验知识来改善陌生场景中未知物体的导航效果,论文提出使用图卷积神经网络集成先验知识到增强学习框架的基于先验知识的视觉语义导航,该方法提出将智能体(agent)的先验知识编码到图谱中,智能体使用知识图谱中的特征来进行预测的同时更新图谱中的内容以获得当前特定环境的先验知识。原创 2019-05-17 18:37:19 · 2149 阅读 · 0 评论 -
一阶段目标检测(7)-FCOS 全卷积anchor-free目标检测方法
论文提出了一个不需要预定义锚框的一阶段全卷积目标检测方法—FCOS原创 2019-06-24 21:32:03 · 2428 阅读 · 0 评论 -
2019最新论文阅读-BlazeFace:面向移动设备的实时人脸检测
本文提出了一种高效的轻量级人脸检测框架BlazeFace应用于移动端实时人脸检测,在旗舰设备上FPS达到了200~1000,这种亚毫秒级别的检测方法能够应用在诸多需要快速准确的识别出人脸区域的任务中,例如2D/3D面部关键点识别与几何评估,面部特征和表情分类以及面部区域分割等。原创 2019-07-14 17:27:34 · 1007 阅读 · 2 评论 -
图像语义分割(20) 通过图像合成方法检测训练中未出现的类别未知的物体
该论文通过图像合成方法检测训练中未出现的类别未知的物体,首先语义分割网络给类别未知物体的区域打上一个可信度较低的标签,这样根据语义分割结果重新生成原始输入时就会在该区域与真实的输入图像产生较大的差别,检测类别位置物体的任务变为检测合成图像与原始图像差别较大的区域。原创 2019-08-15 10:22:10 · 1377 阅读 · 0 评论 -
(CVPR2019)视频-图像语义分割(21) 联合传播数据增广+标签松弛提升边界精度=语义分割效果提升
该论文提出了一种基于视频帧预测的方法合成训练样本来对训练数据集进行增广以获得精度更高的语义分割网络。具体地,论文利用视频帧预测模型的能力同时获得更多的图像和标注,并且使用联合传播策略来消除合成样本中的误差,另外还设计了新颖的边界标签松弛技术使得训练过程对于合成样本数据和注释的偏差更加鲁棒。原创 2019-09-08 19:44:30 · 3100 阅读 · 4 评论 -
(CVPR2019)图像语义分割(22) FickleNet-使用随机推理的用于弱监督和半监督的图像语义分割
论文提出FickleNet,探索深度卷积神经网络特征图不同位置的组合,学习神经网络各隐藏单元的一致性关系以识别目标的显著部分同时获得精准的边界以及其他部分。FickleNet通过Dropout层实现卷积神经网络隐藏层各单元的随机结合,为单幅图像上产生多个位置图,得到多个形状不同的区域,从而更快地描绘出目标的轮廓,FickleNet可以视为不需要多个扩张率就可以匹配不同形状和尺寸目标的扩展卷积的推广,只需在任一语义分割模型上添加一简单层,就可以在Pascal VOC 2012上的弱监督和半监督方法中取得较好的原创 2019-09-09 16:07:02 · 2446 阅读 · 0 评论 -
(ICIP2019)图像语义分割(23) LEDNet-用于实时语义分割的轻量级编解码网络
论文提出用于实时语义分割的轻量级网络分割LEDNet,采用非对称编解码结构,编码模块采用带有通道分离和混洗的残差层,解码模块设计了APN模块减少计算开支,整个网络可以端到端训练。实验结果表明LEDNet在CityScapes上缺德了最好的速度与精度的权衡。原创 2019-09-10 19:24:47 · 2641 阅读 · 0 评论 -
(ICIP2019)图像语义分割(24) ACNet-使用注意力网络的RGBD图像语义分割方法
论文提出了一种全新的方法,基于时下流行的注意力机制,用于室内场景下的RGBD图像语义分割——通过利用图像深度信息,获得更好的语义分割效果,在包含40个类别的复杂室内场景通用数据集NYUDv2上取得了SOTA效果,mIoU达到了48.3%,论文主要的贡献在于一个注意力辅助模块和三平行分支的网络架构。原创 2019-09-24 19:04:18 · 6434 阅读 · 4 评论 -
(CVPR2019)图像语义分割(18) DANet-集成双路注意力机制的场景分割网络
该论文提出新型的场景分割网络DANet,利用自注意力机制进行丰富语义信息的捕获,在带有空洞卷积的FCN架构的尾部添加两个并行的注意力模块:位置注意力模块和通道注意力模块,论文在Cityscapes,PASCAL Context和COCO数据集上都取得了SOTA效果。原创 2019-05-16 08:29:53 · 15485 阅读 · 6 评论 -
CVPR2017-图像特征匹配-GMS:基于网格的运动统计的快速且极度鲁棒的图像特征匹配算法
GMS: Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence该论文提出基于网格的运动统计的方法用于特征匹配,总体思想是针对特征匹配问题,本质上是一个基于统计的解决方法,可以快速区分出正确的匹配和错误的匹配,即将较高的特征点匹配数量转化为较高质量的匹配,使得算法更加快速和鲁棒。原创 2019-05-07 17:55:56 · 4944 阅读 · 2 评论 -
论文阅读-为什么深度卷积神经网络对小目标的变换泛化效果很差?
该论文发现,现代深度卷积神经网络在图像中的小目标发生平移后对其类别的判断会产生非常大的误差,这与人们设计深度卷积网络的初衷并不一致。论文还观察到,网络层数越深,这种错误越容易发生。论文认为这种错误的发生是由于现代卷积神经网络的架构设计没有遵从经典的采样定理以致泛化能力不能得到保证。并且通用的图像数据集中的统计误差使得CNN难以学习到其中的变换不变性(invariant to these transformations)。原创 2018-12-17 18:48:06 · 1734 阅读 · 0 评论 -
图像语义分割(11)-BiSeNet:用于实时语义分割的双向分割网络
论文中提出了一种新的双向分割网络BiSeNet。首先,设计了一个带有小步长的空间路径来保留空间位置信息生成高分辨率的特征图;同时设计了一个带有快速下采样册率的语义路径来获取客观的感受野。在这两个模块之上引入一个新的特征融合模块将二者的特征图进行融合,实现速度和精度的平衡。原创 2018-12-10 19:36:20 · 4324 阅读 · 0 评论 -
图像语义分割(12)-重新思考空洞卷积: 为弱监督和半监督语义分割设计的简捷方法
论文中提出将已经表明的区域的知识推广到相邻的不确定的区域以产生密集的目标定位预测。为了实现这个目标,论文重新思考空洞卷积,发现空洞卷积在扩张感受野的同时不会增加过多的计算代价,这种特性对于将已判明区域的指示推广至未判明相邻区域非常适合,由此文章设计了多空洞率的卷积块来增强标准的分类模型.原创 2018-12-21 12:14:53 · 4449 阅读 · 3 评论 -
图像语义分割(10)-DeepLabV3+: 用于图像语义分割的带有空洞可分离卷积的编解码结构
论文地址 :Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation论文代码:Github链接1. 摘要 文章主要的工作是将空间金字塔池化和编解码模块结合,在DeepLabV3的基础上提出DeepLabV3+:使用DeepLabV3作为编码结构,再次基础上增加一个简单有效的解码模块来精...原创 2018-12-10 14:44:51 · 2778 阅读 · 0 评论 -
图像语义分割(9)-DeepLabV3: 再次思考用于图像语义分割的空洞卷积
论文地址 :Rethinking Atrous Convolution for Semantic Image Segmentation论文代码:Github链接1. 摘要 文章主要的工作:使用空洞卷积来调整滤波器的感受野并控制特征图分辨率使用不同空洞率的空洞卷积的串联或者并行操作来分割不同尺度的目标,捕获不同尺度的语义信息扩展的ASPP实现和训练的细节没有了DesneCRF的后...原创 2018-12-10 10:14:53 · 1521 阅读 · 0 评论 -
图像语义分割(8)-Large Kernel Matters:通过全局卷积网络改进语义分割
提出全局卷积网络。减缓定位任务和分类任务的矛盾,提出边界精细模块使得物体边界处的定位更加精细原创 2018-12-05 20:26:42 · 856 阅读 · 0 评论 -
图像语义分割(6)-RefineNet:用于高分辨率图像语义分割的带有恒等映射的多路精细网络
RefineNet: Multi-Path Refinement Networks with Identity Mappings for High-Resolution Semantic Segmentation提出多路RefineNet,利用多个层级的特征,使得语义分割更加精确;利用Residual Connections(恒等映射),使得梯度更加容易长/短传,使端到端的训练更加高效;提出chained residual pooling,可以从较大的区域捕捉捕捉的上下文信息原创 2018-12-03 11:08:50 · 1695 阅读 · 0 评论 -
图像语义分割(5)-DeepLabV2: 使用深度卷积网络、空洞卷积和全连接条件随机场进行图像语义分割
DeepLabV2是在[V1]基础上的优化,不同与V1,模型采用Resnet代替VGG-16,提出ASPP代替标准多尺度处理进行多尺度的特征的捕捉和融合,取得了更好的效果。原创 2018-11-27 10:22:07 · 1437 阅读 · 0 评论 -
图像语义分割(2)-DeepLabV1: 使用深度卷积网络和全连接条件随机场进行图像语义分割
普通下采样减小了图像的尺寸使得单个像素对应了更大的感受野,但是同时也使得分辨率下降,丢失了部分局部信息。此时自然想到需要一个不采用max pooling且仍能对应大感受野的采样方法,引入空洞卷积来解决下采样问题。传统的图像分析中,CRF主要用来做平滑处理,又因为short-range CRFs 可能会对我们恢复局部信息的目标起到反作用,所以使用全连接CRF,考虑全局信息。原创 2018-11-26 18:12:23 · 1627 阅读 · 0 评论 -
DeepLabv1补充:对全连接条件随机场(Fully Connected / Dense CRF)的理解
1. 随机场 (random field) 由若干位置组成的整体,每一个位置按某种分布随机地赋一个值,全体即组成一个随机场。2. 马尔科夫随机场(MRF) 马尔科夫随机场是随机场的特例,假设某一个位置的赋值只与和它相邻的位置相关。3. 条件随机场(CRF) 条件随机场是马尔科夫随机场的特例,假设马尔可夫随机场只有X和Y两个随机变量,一般情况下,X是给定的,Y是输出。 形式化定义...原创 2018-11-26 16:58:44 · 9360 阅读 · 2 评论 -
(CVPR2019)图像语义分割(17)-DFANet:用于实时语义分割的深层特征聚合网络
论文提出了一种极其高效的用于实时语义分割的网络框架DFANet,从一个轻量级的主干网络开始,通过一些列的附属阶段来聚合有判别力的特征,减少模型参数的同时保持了良好的感受野并且增强了模型的学习能力,取得了实时语义分割上的SOTA效果原创 2019-05-14 12:51:34 · 4625 阅读 · 0 评论 -
论文阅读-可变形卷积v2: More Deformable, Better Results
论文提出可变形卷积神经网络v2(DCNv2),规避了采样区域增加从而引入无关区域的问题,通过更多的可变形卷积层的堆叠,可调节的可变形卷积核RoI池化模块与R-CNN特征融合训练进一步提升了训练精度。原创 2019-05-13 18:17:10 · 4046 阅读 · 0 评论 -
CVPR2018论文阅读-Faster MPN-COV:迭代计算矩阵平方根以快速训练全局协方差池化
Towards Faster Training of Global Covariance Pooling Networks by Iterative Matrix Square Root Normalization通过迭代计算矩阵平方根加速训练全局协方差池化替代全局平均池化更好地利用协方差矩阵丰富的结构信息,提出的方法在几个细粒度的数据集上都SOTA效果。原创 2019-04-18 09:06:44 · 5528 阅读 · 1 评论