Joney Feng-CSDN博客

原创 Hi3519DV500开发板适配新sensor的详细流程(最新版)

1.首先需要将官方给出的SDK包从主机端传输到虚拟机端，可以将主机文件夹复制后在虚拟机端直接进行粘贴或者可以通过建立虚拟机与主机之间的共享文件夹进行文件的传输，可以借助copy to操作。寻找与目标sensor详尽的sensor驱动进行修改，这里以os08a20sensor为例进行修改，将oso8a20文件夹，重新复制一份，命名为sensor_pts001。修改过程中遵循非必要不修改的原则，重点是修改寄存器数值和一些参数值，如果所选传感器与新传感器的差异较大的时候，还需修改相应的函数值。

2025-06-11 15:53:06 106

原创 MIPI使用指南

MIPI_RX是一个支持多种差分视频输入接口的采集单元，通过combo-PHY接收MIPI/LVDS/sub-LVDS/HiSPi/DC接口的数据，通过不同的功能模式配置，MIPI_RX可以支持多种速度和分辨率的数据传输需求，支持多种外部输入设备。MIPI的全称是Mobile Industry Processor Interface(移动行业处理器接口)，本文描述的MIPI接口特指物理层使用D-PHY传输规范，协议使用CSI-2的通信接口。OT_MIPI_SET_DEV_ATTR：设置MIPI设备属性。

2025-06-11 11:21:03 523

原创 Multi-sensor multispectral reconstruction framework based on projection and recon基于投影和重构的多传感器多光谱重构框架

高光谱图像(HSIs)的稀缺性与低空间分辨率已成为限制其应用的主要瓶颈。近年来，光谱重建(SR)技术被用于将海量、高空间分辨率的多光谱图像(MSIs)转化为HSIs。随着多颗新型多光谱(MS)卫星(短重访周期)的发射，同一区域多MS传感器影像的同步获取逐渐成为可能。然而，现有SR方法仅针对单传感器MSIs进行重建，未考虑利用不同MS传感器的互补波段实现更优重建效果。但多传感器SR存在两大挑战：。

2025-05-16 10:07:24 1087

原创 ProjectionNet: Learning Efficient On-Device DeepNetworks Using Neural Projec投影网络：利用神经投影学习高效的设备端深度网络

深度神经网络已广泛应用于视觉识别和语言理解任务。然而，在移动电话或智能手表等设备上使用典型神经网络模型往往不可行，因为模型体积庞大，无法适配此类设备的有限内存。虽然这些设备可以利用运行在配备CPU或GPU的高性能数据中心上的机器学习模型，但由于数据隐私敏感性及需直接在设备端进行推理的需求，这对许多应用而言并不现实。我们提出了一种通过联合优化框架训练紧凑神经网络的新架构。其核心是一个新颖的联合训练目标函数，结合了两种网络：1. 完整训练网络（采用前馈神经网络或LSTM循环神经网络等现有架构）

2025-05-15 16:44:59 866

原创 CycleISP: Real Image Restoration via Improved Data Synthesis通过改进数据合成实现真实图像恢复

大规模数据集的可用性极大释放了深度卷积神经网络（CNN）的潜力。然而，针对单图像去噪问题，获取真实数据集成本高昂且流程繁琐。因此，图像去噪算法主要基于合成数据开发与评估，这些数据通常通过广泛假设的加性高斯白噪声（AWGN）生成。尽管CNN在合成数据集上表现优异，但在真实相机图像中效果不佳，如近期基准数据集所示。这主要因为AWGN不足以建模真实相机噪声——其具有信号依赖性且受相机成像流程（ISP）深度变换。

2025-05-14 15:29:24 978

原创语义分割模型部署到嵌入式终端的通用操作流程

安装交叉编译工具链（如ARM-GCC）或硬件厂商提供的SDK（如华为昇腾CANN Toolkit、地平线OpenExplorer）。| 华为Atlas 200IDK | 昇腾CANN + ATC工具 | 高算力边缘计算（自动驾驶） || 地平线征程5（J5） | OpenExplorer + BPU加速库 | 车载实时感知 |使用轻量级架构：例如PIDNet-S（实时性要求高）或LiteSeg（资源受限场景）。

2025-05-12 17:49:41 908

原创低光图像增强新色彩空间HVI：技术突破与创新解析（HVI: ANewColor Space for Low-light Image Enhancement）

方法类别代表模型优势缺陷改进方向单阶段模型RetinexNet物理可解释性高黑色区域色偏、亮度失真结合自适应强度压缩扩散模型生成质量高、细节保留好局部过曝、计算复杂度高引入频域分解）颜色空间HSV亮度与色彩解耦红色噪声、黑色伪影极化HS映射颜色空间YCbCr兼容视频压缩标准Y轴与色度平面耦合导致色偏动态色彩适应网络技术演进趋势颜色空间创新：如HVI空间（网页10）通过极化HS和可学习强度压缩，消除HSV/YCrCb的噪声干扰，实现亮度与色彩的完全解耦。。

2025-05-08 18:40:05 913

原创基于内容感知元数据的sRGB到Raw-RGB反渲染学习(Learning sRGB-to-Raw-RGB De-rendering with Content-Aware Metadata)

本框架通过端到端深度学习实现sRGB图像到Raw-RGB图像的反渲染，包含两个核心组件：自适应采样网络和重建网络。给定sRGB图像x与原始Raw-RGB图像y，传统方法仅通过y=f(x)建立映射，而本文创新性地引入元数据驱动策略，构建联合映射关系y^=f(x;其中g(x,y)为可学习的采样函数，从Raw-RGB中提取关键像素s^y作为元数据嵌入sRGB文件。

2025-04-14 17:01:42 803

原创基于深度神经网络的相机场景依赖成像建模(Modelling the Scene Dependent Imaging in Cameras with a Deep Neural Network)

模块创新点技术支撑数据预处理EXIF驱动的白平衡校正与动态裁剪策略可学习直方图多尺度金字塔池化实现全局-局部特征融合训练优化小批量稀疏补丁采样提升显存效率场景依赖性分析直方图置换实验揭示网络对亮度/色度分布的语义推理机制。

2025-04-11 18:08:35 749

原创 Deep-FlexISP: A Three-Stage Framework for Night Photography Rendering（Deep-FlexISP：一种用于夜景渲染的三阶段框架）

夜景渲染因图像的高噪声水平、色彩饱和度不足和动态范围低而具有挑战性。在本研究中，我们提出了一种名为的三阶段级联框架，其将图像信号处理（ISP）分解为三个弱相关子任务：原始图像去噪、白平衡和拜耳（Bayer）到sRGB的色彩映射。任务分解可增强框架的学习能力，使模型更易收敛；弱相关子任务间的相互影响较小，因此框架具有高度灵活性；噪声、色彩和亮度是夜景图像的核心要素，基于此框架，可根据个人偏好灵活调整不同风格，同时保留关键学习能力与自由度。

2025-04-09 10:52:06 655

原创多光谱相机数据采集过程中常见仪器

（调节镜头光圈调节环，以获得充足的光通量；调节镜头焦距调节环，以使得图像清晰。设备配套软件：VIX-N220、XuanDo(用于调节相机推扫速度)；（使用不一样的推扫速度进行光谱预览，如果图像失真。文件存储格式：BSQ、BIL、图片集合。推扫速度调整所需材料：黑色圆环纸实物；覆盖光谱范围：400-1000nm；镜头调节所需材料：黑色条纹纸实物；光谱分辨率：2nm；

2025-03-11 11:55:05 535

原创光学中常用名词的基本概念

色温是指光源辐射出的光线的色彩品质，也是人眼感知光线颜色的参照标准之一。通常使用“开尔文（K）”作为单位，表示白炽灯、荧光灯等各种光源发出的光线的色调。常见的色温范围在2700K-6500K之间，其中2700K以下的光线会偏暖黄，而6500K以上的光线会偏冷蓝。

2025-03-11 11:31:10 1009

原创超越高斯去噪器深度CNN的残差学习进行图像去噪Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising

DnCNN通过深度架构设计、残差学习与批归一化的协同优化，在多个图像去噪任务中实现了高效且高性能的解决方案。其模块化设计为后续扩展（如去模糊、图像修复）提供了灵活的基础。

2025-03-06 12:05:08 1232

原创 Squeeze-and-Attention Networks for Semantic Segmentation

在本文中，我们从像素级预测和像素分组这两个独立的维度重新思考了语义分割问题。我们设计了一个SA模块来解决像素分组的隐含子任务。SA模块增强了像素级的密集预测，并考虑了被大多数人忽视的像素组注意力。更重要的是，我们提出了在两个具有挑战性的基准测试上取得有希望的分割性能的SANet。我们希望简单而有效的SA模块以及构建在SA模块之上的SANet能够促进其他研究团队在分割领域的研究。

2023-10-19 21:20:18 630

原创 PSANet: 场景解析的逐点空间注意力网络_PSANet:Point-wise Spatial Attention Network for Scene Parsing

我们在图2中展示了PSA模块的框架。PSA模块以空间特征图X作为输入。我们将X的空间大小表示为H×W。通过两个分支生成每个特征图位置的像素级全局注意力图，通过几个卷积层。根据公式（8），我们根据注意力图聚合输入特征图，生成与长程上下文信息结合的新特征表示，即来自“collect”分支的Zc和来自“distribute”分支的Zd。我们将新的表示Zc和Zd连接起来，并应用一个带有批量归一化和激活层的卷积层进行降维和特征融合。然后，我们将新的全局上下文特征与局部表示特征X连接起来。

2023-10-19 14:40:58 2498

原创 HyperSeg: 基于块的超网络实时语义分割——HyperSeg:Patch-wise Hypernetwork for Real-time Semantic Segmentation

我们提出将自编码器与超网络结合起来，用于语义分割任务。在我们的方案中，超网络由三个网络组成：语义分割编码器的骨干网络b，一个内部U-Net形式的上下文头h和多个权重映射头wi。解码器是一个多块解码器，其中每个块di实现局部连接层。结果是一种新型的U-Net，能够动态地、局部地适应输入，因此有潜力更好地定制分割过程以适应输入图像。正如我们的实验所显示的，我们的方法在这个非常具有竞争力的领域中，通过多个基准测试，优于SotA方法。

2023-10-11 11:31:19 1292

原创期望最大化注意力网络用于语义分割——Expectation-Maximization Attention Networks for Semantic Segmentation

在本文中，我们提出了一种新型的注意力机制，即期望最大化注意力（EMA），它通过迭代执行EM算法计算出更紧凑的基础集。EMA的重建输出是低秩的，并且对输入的变化具有鲁棒性。我们将所提出的方法形式化为轻量级模块，可以轻松插入到现有的CNN中，代价很小。在许多基准数据集上的广泛实验表明了所提出的EMAU的有效性和效率。

2023-10-11 11:03:39 1285

原创 PointRend: 将图像分割视为渲染——PointRend:Image Segmentation as Rendering

我们提出了一种新的方法，用于高效、高质量的对象和场景图像分割。通过将经典的计算机图形学方法与像素标记任务中面临的过采样和欠采样挑战进行类比，我们开发了一种将图像分割视为渲染问题的独特视角。基于这个视角，我们提出了PointRend（基于点的渲染）神经网络模块：一个在自适应选择的位置上执行基于点的分割预测的模块，该位置是基于迭代细分算法选择的。PointRend可以灵活地应用于实例分割和语义分割任务，通过构建在现有的最先进模型之上。虽然许多具体实现都是可能的，但我们表明，一个简单的设计已经可以实现出色的结果。

2023-10-10 22:08:52 1114

原创 BiSeNet：用于实时语义分割的双边分割网络——BiSeNet:Bilateral Segmentation Network for Real-time Semantic Segmentation

语义分割需要丰富的空间信息和较大的感受野。然而，现代的方法通常为了实现实时推断速度而牺牲空间分辨率，导致性能下降。本文提出了一种新的双边分割网络（BiSeNet）来解决这个问题。我们首先设计了一个具有小步长的空间路径来保留空间信息并生成高分辨率特征。同时，采用快速下采样策略的上下文路径用于获取足够的感受野。在两个路径之上，我们引入了一个新的特征融合模块来有效地组合特征。所提出的架构在Cityscapes、CamVid和COCO-Stuff数据集上在速度和分割性能之间取得了适当的平衡。

2023-10-10 21:44:37 6918

原创 HRNet-深度高分辨率表示学习在人体姿势估计中的应用——Deep High-Resolution Representation Learning for Human Pose Estimation

在本文中，我们对人体姿态估计问题感兴趣，重点是学习可靠的高分辨率表示。大多数现有方法通过高低分辨率网络生成的低分辨率表示恢复高分辨率表示。相反，我们提出的网络在整个过程中保持高分辨率表示。我们从一个高分辨率子网络作为第一阶段开始，逐渐添加高低分辨率子网络形成更多阶段，并将多分辨率子网络并行连接起来。我们进行重复的多尺度融合，使每个高低分辨率表示重复地从其他并行表示中接收信息，从而得到丰富的高分辨率表示。因此，预测的关键点热图可能更准确且空间上更精确。

2023-10-04 17:50:14 808

原创注意力机制是否比矩阵分解更好？——IS ATTENTION BETTER THAN MATRIX DECOMPOSITION?

本文研究了在网络中建模长程依赖关系。我们将学习全局上下文的过程形式化为一个低秩完成问题。受到低秩形式化的启发，我们基于广为研究的矩阵分解模型开发了Hamburger模块。通过特定的矩阵分解目标函数，其优化算法创建的计算图自然地定义了Hamburger的核心架构。Hamburger通过去噪和完成其输入来学习可解释的全局上下文，并改善谱的集中度。令人惊讶的是，当谨慎处理反向梯度时，即使是20年前提出的简单矩阵分解在具有挑战性的视觉任务（如语义分割和图像生成）中也能与自注意力一样强大，而且轻量、快速和内存高效。

2023-10-04 17:22:50 1002

原创 InternImage: 使用可变形卷积探索大规模视觉基础模型（Exploring Large-Scale Vision Foundation Models with Deformable Conv）

相较于近年来大规模视觉Transformer（ViT）取得的巨大进展，基于卷积神经网络（CNN）的大规模模型仍处于早期阶段。本文提出了一种新的基于CNN的大规模基础模型，称为InternImage，它可以像ViTs那样从增加参数和训练数据中获益。与近期专注于大型密集卷积核的CNN不同，InternImage将可变形卷积作为核心运算符，因此我们的模型不仅具有下游任务（如检测和分割）所需的大有效感受野，而且具有由输入和任务信息条件化的自适应空间聚合。

2023-09-29 17:19:29 3335

原创 DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION——用于端到端物体检测的可变形注意力机制

原文链接：https://arxiv.org/pdf/2010.04159.pdf0.摘要1.引言2.相关工作3.回顾Transformers和DETR4.方法4.1.用于端到端的可变性注意力机制4.2.关于Deformable DETR模型的补充改进和变体5.实验5.1.与DETR的比较5.2.关于可变形注意力的消融研究5.3.与当前主流方法的比较6.结论7.参考文献

2023-09-26 11:26:02 592

原创 Xception: 使用深度可分离卷积的深度学习——Xception:Deep Learning with Depthwise Separable Convolutions

我们将卷积神经网络中的Inception模块解释为常规卷积和深度可分离卷积操作之间的中间步骤。在这个视角下，深度可分离卷积可以被理解为具有最大数量塔的Inception模块。这个观察引导我们提出了一个新颖的深度卷积神经网络架构，灵感来自Inception，其中Inception模块被深度可分离卷积所替代。

2023-09-26 10:19:02 690

原创 Flatten Transformer: 使用聚焦线性注意力的视觉Transformer

在本文中，我们提出了一种新颖的focused linear attention模块。通过从关注能力和特征多样性的角度解决先前线性注意力方法的局限性，我们的模块实现了高效性和表达能力的惊人结合。对图像分类、目标检测和语义分割的广泛实验表明，我们的模块可以广泛应用于各种视觉Transformer，并实现计算效率和模型性能之间更好的平衡。

2023-09-21 10:44:42 42 1

原创尺度空间和使用各向异性扩散进行边缘检测——Scale-Space and Edge Detection Using Anisotropic Diffusion

我们介绍了一种工具，各向异性扩散，我们相信它在早期视觉的许多任务中将证明其有用性。基于扩散的算法涉及整个图像格点上的简单、局部、相同的计算。在像连接机这样的大规模并行架构上实现几乎是微不足道的。使用混合模拟-数字网络的实现也似乎是可行的。我们已经证明，最简单的各向异性扩散版本可以成功地应用于多尺度图像分割。作为预处理步骤，它使得细化和连接边缘变得不必要，保留了边缘交叉点，并且不需要在不同尺度上对图像进行复杂的比较，因为形状和位置在每个尺度上都得到保留。

2023-09-07 18:16:34 955 2

原创使用CNN和经过判别式训练的域变换进行任务特定边缘检测的语义图像分割——Semantic Image Segmentation with Task-Specific Edge Detection Us

我们提出的模型由三个组件组成，如图2所示。它们被联合训练，以优化输出的语义分割质量。第一个组件是基于公开可用的DeepLab模型[5]的粗糙语义分割评分预测。DeepLab修改了VGG-16网络[40]以成为FCN [31]。该模型从VGG-16 ImageNet [36]预训练模型初始化。我们采用了[5]的DeepLab LargeFOV变体，它在滤波器中引入零以扩大其视野，我们简称为DeepLab。我们添加了第二个组件，称为EdgeNet。EdgeNet通过利用DeepLab的中间层特征来预测边缘。

2023-09-07 16:31:01 507

原创无卷积参考图像分割——ReSTR: Convolution-free Referring Image Segmentation Using Transformers

参考图像分割是一项高级的语义分割任务，其中目标不是预定义的类别，而是通过自然语言进行描述。现有的大多数方法依赖于卷积神经网络，但是卷积神经网络在捕捉语言表达中实体之间的长距离依赖关系方面存在困难，并且对于建模两种不同模态之间的相互作用不够灵活。为了解决这些问题，我们提出了一种使用Transformer进行参考图像分割的第一个无卷积模型，名为ReSTR。由于ReSTR通过Transformer编码器提取了两种模态的特征，因此可以捕捉到每个模态内部实体之间的长距离依赖关系。此外，ReSTR通过自注意力编码器融合

2023-08-24 16:53:28 468

原创保留网络：大型语言模型的Transformer继任者

在这项工作中，我们提出了Retentive Network (RETNET)作为大型语言模型的基础架构，同时实现了训练并行性、低成本推理和良好的性能。我们从理论上推导了循环和注意力之间的联系。然后，我们提出了序列建模的保留机制，支持三种计算范式，即并行、递归和分块递归。具体而言，并行表示允许进行训练并行化。递归表示实现了低成本的O(1)推理，提高了解码吞吐量、延迟和GPU内存，而不会牺牲性能。分块递归表示以线性复杂度实现了高效的长序列建模，每个块都是并行编码的同时递归总结块。

2023-08-01 20:00:34 1648 1

原创 SegNeXt：重新思考用于语义分割的卷积注意力

在这篇论文中，我们分析了之前成功的分割模型，并找到了它们所拥有的良好特性。基于这些发现，我们提出了定制的卷积注意力模块MSCA和CNN风格的网络SegNeXt。实验结果表明，SegNeXt在很大程度上超过了当前最先进的基于transformer的方法。最近，基于transformer的模型在各种分割排行榜上占据主导地位。然而，本文表明，当使用适当的设计时，基于CNN的方法仍然可以比基于transformer的方法表现更好。我们希望这篇论文能够鼓励研究人员进一步探索CNN的潜力。

2023-08-01 11:06:30 1313

原创二十一章：PUZZLE-CAM:通过匹配局部和全局特征来改进定位

弱监督语义分割（WSSS）被引入来缩小从像素级监督到图像级监督的语义分割性能差距。大多数先进的方法是基于类激活图（CAM）来生成伪标签以训练分割网络。WSSS的主要局限性在于从使用图像分类器的CAM生成伪标签的过程主要集中在对象的最具区分性的部分。为了解决这个问题，我们提出了Puzzle-CAM，它通过最小化分割网络中独立补丁和整个图像特征之间的差异来发现对象中最一体化的区域。我们的方法包括一个拼图模块和两个正则化项。Puzzle-CAM可以利用图像级监督激活对象的整个区域，而不需要额外的参数。

2023-07-31 14:07:07 555

原创二十五章：用于弱监督语义分割的激活调节和重新校准方案

图像级弱监督语义分割（WSSS）是一项基础而具有挑战性的计算机视觉任务，有助于场景理解和自动驾驶。大多数现有方法利用基于分类的类激活图（CAMs）作为初始伪标签，但这些方法往往关注区分性的图像区域，缺乏针对分割任务的定制特征。为了缓解这个问题，我们提出了一种新颖的激活调节和重新校准（AMR）方案，利用聚光灯分支和补偿分支获得加权的CAMs，提供重新校准的监督和任务特定的概念。

2023-07-30 10:33:35 684

原创二十四章：Reducing Information Bottleneck for WeaklySupervised Semantic Segmentation——减小弱监督语义分割的信息瓶颈

弱监督语义分割通过类别标签生成像素级定位，然而，使用这些标签训练的分类器往往只关注目标对象的小的可区分区域。我们使用信息瓶颈原理解释了这一现象：深度神经网络的最后一层通过sigmoid或softmax激活函数引起了信息瓶颈，结果只有任务相关信息的子集传递到输出层。我们首先通过一个模拟的玩具实验支持了这一论点，然后提出了一种通过去除最后一个激活函数来减小信息瓶颈的方法。此外，我们引入了一种新的池化方法，进一步鼓励从非判别区域传递信息到分类器。我们的实验评估表明，这个简单的修改显著提高了在PASCAL VOC

2023-07-29 22:16:34 379

原创二十三章：抗对抗性操纵的弱监督和半监督语义分割的属性解释

弱监督语义分割从分类器中生成像素级定位，但往往会限制其关注目标对象的一个小的区域。AdvCAM是一种图像的属性图，通过增加分类分数来进行操作。这种操作以反对抗的方式实现，沿着像素梯度的相反方向扰动图像。它迫使最初被认为不具有区分度的区域参与后续的分类，并产生逐步识别目标对象更多区域的属性图。此外，我们引入了一种新的正则化过程，抑制了与目标对象无关的区域的错误归因，并限制了已经具有高分数的区域的归因。

2023-07-29 21:59:14 586

原创二十二章：通过响应缩放进行不确定性估计，以减轻弱监督语义分割中伪掩码噪声的影响

弱监督语义分割（WSSS）在不需要密集注释的情况下对对象进行分割。然而，生成的伪掩码存在明显的噪声像素，这导致在这些伪掩码上训练的分割模型表现不佳。但是，很少有研究注意到或解决这个问题，即使在改进了伪掩码后这些噪声像素仍然是不可避免的。因此，我们试图改进WSSS的噪声抑制方面。我们观察到许多噪声像素具有很高的置信度，特别是当响应范围过宽或过窄时，表现出不确定的状态。因此，在本文中，我们通过多次缩放预测图来模拟响应的噪声变化，以估计不确定性。然后，利用这种不确定性来加权分割损失，以减轻噪声监督信号。

2023-07-29 20:36:43 926

原创二十章：基于弱监督语义分割的亲和注意力图神经网络

弱监督语义分割因其较低的人工标注成本而受到广泛关注。本文旨在解决基于边界框标注的语义分割问题，即使用边界框注释作为监督来训练准确的语义分割模型。为此，我们提出了亲和力注意力图神经网络（A2GNN）。按照先前的做法，我们首先生成伪语义感知的种子，然后基于我们新提出的亲和力卷积神经网络（CNN）将其形成语义图。然后，构建的图被输入到我们的A2GNN中，其中一个亲和力注意力层被设计用来从软图边缘获取短距离和长距离信息，以准确地将语义标签从可信的种子传播到未标记的像素。

2023-07-29 16:13:42 1355

原创十九章：利用跨图像语义挖掘进行弱监督语义分割

首先，在三种不同的WSSS设置下进行实验：(1) 最标准的范式[22, 23, 55, 69]，只允许使用来自PASCAL VOC 2012 [10]的图像级别监督（见第4.1节）。(2) 遵循[35, 48]的方法，可以使用额外的单标签图像，但会带来域差异的挑战（见第4.2节）。(3) 网络监督的语义分割范式[24, 32, 54]，可以访问额外的网络数据（见第4.3节）。然后，在第4.4节中，我们展示了我们方法在LID20的WSSS任务中取得的成果。

2023-07-29 15:53:32 593

原创十八章：用于弱监督语义分割的自监督等变注意力机制

图像级弱监督语义分割是一个具有挑战性的问题，近年来得到了深入研究。大多数先进的解决方案利用类激活图（CAM）。然而，由于全监督和弱监督之间存在差距，CAM几乎无法用作对象掩码。在本文中，我们提出了一种自监督的等变注意机制（SEAM），以发现额外的监督信息并缩小差距。我们的方法基于这样一个观察结果：等变性是完全监督语义分割中的一个隐含约束，其像素级标签在数据增强期间与输入图像进行相同的空间变换。然而，这个约束在通过图像级监督训练的CAM上丢失了。

2023-07-29 11:23:18 866 2

原创十七章：FickleNet：使用随机推理进行弱监督和半监督语义图像分割

弱监督语义图像分割的主要障碍在于从粗糙的图像级注释中获取像素级信息的难度。大多数基于图像级注释的方法使用从分类器获得的定位地图，但这些地图仅关注对象的小区别部分，不捕捉精确的边界。FickleNet探索由通用深度神经网络创建的特征图上的各种位置的组合。它随机选择隐藏单元，然后使用它们来获取图像分类的激活分数。FickleNet隐含地学习了特征图中每个位置的一致性，从而产生了一个定位地图，可识别对象的区别和其他部分。通过选择随机隐藏单元对，从单个网络中获得了集合效应，这意味着从单个图像生成了各种定位地图。

2023-07-28 22:13:58 452

原创十六章：可靠性确实重要：一种端到端的弱监督语义分割方法

在本文中，我们提出了RRM，一种用于图像级别弱监督语义分割的端到端网络。我们重新审视了现有方法采用的两步方法的缺点。我们通过挖掘可靠但微小的区域，提出了一种一步方法，并直接将它们用作分割模型训练的标签。在有限的像素监督下，我们设计了一种新的损失函数，称为密集能量损失，它利用浅层特征（RGB颜色和空间信息）与像素级交叉熵损失相结合，优化训练过程。基于我们的一步RRM，我们扩展了一个两步方法。我们的一步和两步方法都实现了最先进的性能。更重要的是，我们的RRM提供了与传统的两步解决方案不同的视角。

2023-07-28 20:16:31 633

空空如也

空空如也