交换喜悲-CSDN博客

原创伪装目标检测论文阅读之Dual-SAM（CVPR-2024)

作为水下智能的重要支柱，海洋动物分割(MAS)涉及对海洋环境中的动物进行分割。以往的方法在提取长范围上下文特征方面表现不佳，并且忽略了离散像素之间的连通性。最近，Segment Anything Model(SAM)为一般的分割任务提供了一个通用的框架。遗憾的是，SAM是用自然图像训练的，不能从海洋图像中获得先验知识。此外，地对空导弹的单一位置提示对于事前制导来说是非常不够的。为了解决这些问题，我们提出了一种新的特征学习框架，称为Dual-SAM，用于高性能MAS。

2024-05-08 20:13:47 793

原创计算机视觉之边缘提取

1)梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大。图像的边缘是指图像局部区域亮度变化显著的部分，一个灰度值在很小的缓冲区域内急剧变化到另一个灰度相差较大的灰度值。通过边缘算子提取轮廓，例如Sobel算子。

2024-05-05 21:42:18 237 1

原创 tensorboard：远程服务器查看不显示问题

自己租的autodl平台的显卡，在查看tensorboard自己设置的scalar和图片时显示无法访问。将代码中的summarywriter路径更改到root/tf-logs下面，即可查看表格曲线。

2024-04-29 22:22:44 79

原创伪装目标检测论文阅读 SAM大模型之参数微调：Conv LoRA

任意分割模型(SAM)是图像分割的基本框架。虽然它在典型场景中表现出显著的零镜头泛化，但当应用于医学图像和遥感等专门领域时，其优势就会减弱。针对这一局限性，本文提出了一种简单有效的参数高效微调方法Conv-Lora。通过将超轻量级卷积参数集成到低阶自适应(LORA)中，Conv-LoRa可以在普通VIT编码器中注入与图像相关的感应偏差，进一步强化了SAM的局部先验假设。

2024-04-28 21:11:11 1312

原创 python目标检测结果图像素转换（二值图和灰度图）

昨天在复现模型的时候发现test的结果图都是黑色的，输出像素发现白色是1，需要将白的像素乘以255，然后再输出，自己写的脚本如下（为了加快速度，用gpu转换，但是感觉速度还是一般）自己更改一下输入和输出的文件夹名称就可以，可以实时查看处理的进度。

2024-04-28 18:15:38 206 1

原创 mathtype设置公式编号，公式居中以及编号靠右

新建样式，然后设置格式-制表位，选择对齐方式，居中对齐设置刚才的一半，右对齐设置刚才的值；看到栏的宽度，然后去设置样式。首先点击栏，选择更多栏去看。

2024-04-24 22:15:38 668

原创伪装目标检测系列论文阅读之：C2FNet《Context-aware Cross-level Fusion Network for Camouflaged Object Detection》

伪装目标检测是一项具有挑战性的任务，因为目标与周围环境之间的边界对比度很低。此外，伪装物体的外观变化很大，例如物体的大小和形状，这增加了准确的COD的难度。本文提出了一种新的上下文感知跨级融合网络(C2F-Net)来解决具有挑战性的协同设计任务。具体地说，我们提出了一种注意力诱导的跨层融合模块(ACFM)来整合具有信息的注意系数的多层特征。然后，融合后的特征被馈送到所提出的双分支全局上下文模块(DGCM)，该模块产生用于利用丰富的全局上下文信息的多尺度特征表示。

2024-04-23 20:18:47 1270

原创伪装目标检测中数据集的标注格式：COCO和VOC

这样生成的xml文件，没有之前COD10K标注的segmentation信息，还需要进一步考虑，在转换为xml的脚本中加上识别segmentation部分。1.OSFormer中提供的COD10K的json格式，是coco的格式，但由于伪装目标检测任务的特殊性，标注信息中还有一个segmentation段。

2024-04-23 17:41:18 244

原创 Flask实战

点击Flask同时点击键盘ctrl即可查看Flask的默认初始化函数。在static文件夹下面新建文件夹images，并导入照片。输入网址即可显示图片。

2024-04-15 15:30:46 341

原创伪装目标检测论文阅读之DINet:《Lightweight camouflaged object detection model based on multilevel feature fusion》

伪装对象与背景环境之间的内在相似性阻碍了伪装对象的自动检测/分割，而用于深度学习的新颖网络架构有望克服这一挑战并提高检测精度。然而，现有的这些用于区分伪装物体及其背景的网络架构没有考虑到检测速度的约束，导致计算复杂度较高，无法满足快速检测的要求。因此，基于人类视觉系统，本研究提出了一种采用多级特征融合的单级轻量级伪装目标检测网络，融合了各种特征层和感受野大小的特征。使用正常伪装物体的三个基准数据集，轻量级网络（LINEt）模型表现出优于现有六种主流伪装物体检测方法的准确性。

2024-04-13 11:33:19 309 2

原创伪装目标检测论文阅读之：《FEDER：Camouflaged Object Detection with Feature Decomposition and Edge Reconstruction》

标题：《Camouflaged Object Detection with Feature Decomposition and Edge Reconstruction》利用特征分解和边缘重建进行伪装目标检测论文：linkcode：link 识别在视觉上融入周围背景的伪装物体是一个棘手的问题，由于伪装物体与背景的内在相似性以及模糊的边界，COD是一项具有挑战性的任务，解决这个问题的现有方法已经开发出各种模仿人类视觉系统的技术，尽管在很多方法上有效，但当伪装物体对视觉系统具有如此大的欺骗性时候，这些方法

2024-04-09 17:28:12 995

原创伪装目标检测论文阅读之：《Confidence-Aware Learning for Camouflaged Object Detection》

任意不确定性捕获了观测结果中的噪声。对于伪装目标检测，由于伪装前景和背景的外观相似，很难获得高精度的注释，特别是目标边界周围的注释。我们认为直接使用“嘈杂”的伪装图进行训练可能会导致模型泛化能力较差。在本文中，我们引入了一种明确的任意不确定性估计技术来表示由于噪声标签而导致的预测不确定性。具体来说，我们提出了一种具有置信度的伪装目标检测（COD）框架，使用动态监督来生成准确的伪装图和可靠的“任意不确定性”。

2024-04-09 16:49:45 847

原创 python环境报错解决：AttributeError: partially initialized module ‘cv2‘ has no attribute ‘_registerMatType‘

是因为同时安装了opencv-python和opencv-contrib-python 版本之间不匹配造成的，删除opencv-contrib-python后opencv-python也会出错，就把两个都删除后安装opencv-python及相匹配的版本的opencv-contrib-python，通过下载低于4.3的版本解决错误。

2024-03-28 23:52:10 583

原创深度学习论文阅读之【Distilling the Knowledge in a Neural Network】提炼神经网络中的知识

提高几乎所有机器学习算法性能的一个非常简单的方法是在相同的数据上训练许多不同的模型，然后对它们的预测进行平均[3]。不幸的是，使用整个模型集合进行预测非常麻烦，并且计算成本可能太高，无法部署到大量用户，尤其是在单个模型是大型神经网络的情况下。Caruana 和他的合作者 [1] 已经证明，可以将集成中的知识压缩到单个模型中，该模型更容易部署，并且我们使用不同的压缩技术进一步开发了这种方法。

2024-03-28 15:33:35 888

原创伪装目标检测之注意力CBAM：《Convolutional Block Attention Module》

我们提出了卷积块注意力模块（CBAM），这是一种简单而有效的用于前馈卷积神经网络的注意力模块。给定一个中间特征图，我们的模块依次推断沿着两个独立维度的注意力图，通道和空间，然后将这些注意力图与输入特征图相乘，进行自适应特征细化。由于CBAM是一个轻量级和通用的模块，它可以无缝地集成到任何CNN架构中，几乎没有额外开销，并且可以与基础CNN一起端到端地进行训练。我们通过在ImageNet-1K、MS COCO检测和VOC 2007检测数据集上进行大量实验来验证我们的CBAM。

2024-03-22 21:17:45 1077

原创伪装目标检测论文BGNet：Boundary-Guided Camouflaged Object Detection

伪装物体检测（COD）是一项有价值但具有挑战性的任务，它可以分割与周围环境完美融合的物体。现有的深度学习方法往往难以准确识别具有完整精细对象结构的伪装对象。为此，在本文中，我们提出了一种用于伪装目标检测的新型边界引导网络（BGNet）。我们的方法探索了有价值的和额外的对象相关的边缘语义，以指导COD的表示学习，这迫使模型生成突出对象结构的特征，从而促进精确边界定位的伪装对象检测。在三个具有挑战性的基准数据集上进行的大量实验表明，在四个广泛使用的评估指标下，我们的BGNet显著优于现有的18种最先进的方法。

2024-03-15 11:08:21 1533 2

原创 c++字符串输入

用cin做字符输入命令时，如果有空格，TAB，回车，就表示结束。最近在准备编程比赛，复习一下之前学过的内容，太久不看确实生疏了。1.普通输入 cin。

2024-03-14 16:24:44 352

原创解决pycharm报错Cannot find remote credentials for target config com.jetbrains.plugins.remotesdk.target

最后将工程目录下的.idea目录删除，然后重新创建工程。再将之前的解释器全部删除，重新创建即解决了这个问题。使用的是ssh方式，解释器使用的是conda里的自定义的python。后来，尝试了几种方法，都没法解决，比如删了解释器重新添加等。

2024-03-13 23:57:17 1312

原创 Linux服务器进程退出了，但是显存占用问题的解决

刚刚在用租的服务器train的时候，一直显示 out of memory，但是并没有程序在跑，搜索了一下回忆起来之前遇到过这种问题，是自己看不见进程。再次查看显存，会发现已经清空。查看所有的进程与PID。

2024-03-13 23:53:33 451

原创深度学习基础知识之通道数channels

在cnn种，通道数就是用于提取特征的滤波器的数量（卷积核数量），在卷积过程中，每个滤波器会对输入特征图进行卷积操作，生成一个新的特征图，通道数就是指卷积后生成的特征图的数量，每个通道可以表示不同的特征信息，例如图像的颜色、边缘、纹理等。这里面352x352表示的是像素大小，即高和宽都为352个像素，而3表示的是通道数，指输入的是3通道的RGB图像，每个颜色通道的取值范围为0-255，可以表示256种颜色强度。大多数的深度学习模型，模型上会展示图片的尺寸，如：352x352x3。

2024-03-12 20:15:19 733

原创深度学习基础知识之Atrous卷积（空洞卷积）

空洞卷积是一种不增加参数量/运算量，同时增加输出单元感受野的一种方法，Atrous卷积，就是带洞的卷积，卷积核是稀疏的，此外，空洞卷积还可以捕捉多尺度上下文信息，通过设置不同的dilation rate，感受野就会不一样，也即获取了多尺度信息，多尺度信息在视觉任务中相当重要。太久不看代码确实生疏了，盯着一堆不同的dilation，不知道有什么作用，论文中说是Atrous卷积，原来就是空洞卷积的意思。简单来说，就是在原本实心的kernal元素之间按照一定的规律加0作为空格。

2024-03-12 18:49:07 779

原创实例分割之PolyFormer:《PolyFormer:Referring Image Segmentation as Sequential Polygon Generation》

在这项工作中，不是直接预测像素级分割模板，而是将参考图像分割描述为连续的多边形生成，然后将预测的多边形转换为分割模板。这是由一个新的序列到序列：多边形转换器-PolyFormer实现的，该框架将一系列图像面片和文本查询标记作为输入，并自动回归一系列多边形顶点。为了更准确地进行几何定位，我们提出了一个基于回归的解码器，它直接预测精确的浮点坐标，没有任何的坐标化误差。

2024-03-08 14:17:21 948

原创 c++编程复习之字符数组：电报文字

输入一行电报文字，将字母变成其下一字母（如’aa’变成’bb’……’zz’变成’ａａ’其它字符不变）对于 100%100% 的数据，保证字符串的长度不超过 100。输出加密处理后的字符。内存限制：128Mb。时间限制：1000s。

2024-03-04 23:43:36 387

原创 Yolo系列论文阅读:YOLOv9《What You Want to Learn Using Programmanble Gradient Information》

如今的深度学习方法关注的是如何设计最合适的目标函数，使模型的预测结果最接近地面真实。同时，必须设计一个合适的架构，以便于获取足够的信息来进行预测。现有的方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换时，会丢失大量信息。本文将深入研究数据在深度网络中传输时的数据丢失问题，即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念，以应对深度网络实现多个目标所需的各种变化。PGI可以为目标任务计算目标函数提供完整的输入信息，从而获得可靠的梯度信息来更新网络权重。

2024-03-04 23:36:50 1217

原创语义分割-基础知识

mean_iou=各个类别的像素预测准确值相加/像素总个数2.转置卷积(Transposed Convolution)cls0_iou=预测正确的像素个数/（预测为该类别的像素个数+真实标签为该类别的像素个数-预测正确的像素个数）2.在输入特征图四周填充k-p-1行，列0。1.在输入特征图元素间填充s-1行，列0。4.做正常卷积运算（填充0，步距1）3.将卷积核参数上下、左右翻转。转置卷积不是卷积的逆运算。

2024-02-18 22:56:40 458

原创实例分割论文阅读之：FCN：《Fully Convolutional Networks for Semantica Segmentation》

卷积网络是强大的视觉模型，可以产生特征层次结构。我们证明，经过端到端、像素到像素训练的卷积网络本身超过了语义分割的最新技术。我们的主要见解是构建“全卷积”网络，该网络接受任意大小的输入并通过有效的推理和学习产生相应大小的输出。我们定义并详细介绍了全卷积网络的空间，解释了它们在空间密集预测任务中的应用，并与先前的模型建立了联系。我们将当代分类网络（AlexNet [20]、VGG 网络 [31] 和 GoogLeNet [32]）改编为完全卷积网络，并通过微调 [3] 将其学习到的表示转移到分割任务。

2024-02-08 23:22:20 2040 2

原创实例分割论文阅读之：《Mask Transfiner for High-Quality Instance Segmentation》

两阶段和基于查询的实例分割方法取得了显著的效果。然而，它们的分段掩模仍然非常粗糙。在本文中，我们提出了一种高质量和高效的实例分割Mask Transfiner。我们的Mask Transfiner不是在规则的密集张量上操作，而是将图像区域分解并表示为四叉树。我们基于变压器的方法只处理检测到的容易出错的树节点，并并行地自我纠正它们的错误。虽然这些稀疏像素只占总数的一小部分，但它们对最终的掩模质量至关重要。这使得Mask Transfiner能够以较低的计算成本预测高度准确的实例掩码。

2024-02-07 22:19:53 1478

原创实例分割模型transfiner《transfiner-Mask Transfiner for High-Quality Instance Segmentaion》

论文：《Mask Transfiner for High-Quality Instance Segmentaion》

2024-02-07 21:12:57 396

原创数据集标注工具anylabeling解析

代码和模型的下载都需要链接github，如果没有梯子可能速度太慢，下载不了模型，可以直接创建一个文件夹【路径不含有中文】存放anylabeling.exe，然后将medels文件夹复制到：C:\Users\用户名\anylabeling_data文件夹下，打开anylabeling.exe，选择工作文件夹，模型选择时选：segment anything（vit－l）【提供的models文件夹内指下载了该模型，因此如果用提供的models文件夹只能选用这个模型，别的模型需要另外下载。

2024-02-03 23:04:50 650

原创 Advances in Deep Concealed Scene Understanding (伪装场景理解综述解读）

伪装场景理解是一个热门的计算机视觉课题，旨在感知展示伪装的物体，当前技术和应用的繁荣需要最新的研究调查，这可以帮助研究人员更好的了解全球CSU领域，包括当前的成就和剩余的挑战。本文提出了四个贡献：（1）首次全面介绍了面向CSU的深度学习技术的调查，包括分类法、任务特定的挑战和正在进行的发展（2）为了对最新技术进行权威量化，我们提供了最大和最新的隐蔽物体分割基准。

2024-01-27 15:02:19 991

原创伪装目标检测系列论文阅读：《Polyp-PVT:Polyp Segmentation with Paramid Vision Transformers》基于金字塔视觉转换器的息肉-PVT分割

大多数息肉分割方法使用CNN作为主干，导致在解码器进行信息交换时需要考虑两个关键问题：1）考虑不同层次特征之间的贡献差异2）设计一种有效的融合机制与现有的基于CNN的方法不同，我们采用了变换编码器，它学习更加强大和健壮的表示。此外，考虑到息肉图像的影响和难以捉摸的特性，我们引入了三个标准模块，包括级联融合模块，伪装识别模块和相似性聚合模块，其中，CFM用于从高层特征中收集息肉的语义和位置信息；

2024-01-22 01:52:12 434 1

原创伪装实例分割模型：OSFormer模型及论文解析

我们推出OSFormer，这是第一个用于伪装实例分割 (CIS) 的单级 Transformer框架。OSFormer 基于两个关键设计。首先，我们设计了一个位置感知变压器（LST），通过引入位置引导查询和混合卷积前馈网络来获取位置标签和实例感知参数。其次，我们开发了一种从粗到细的融合（CFF）来合并来自LST编码器和CNN主干的不同上下文信息。将这两个组件耦合起来使 OSFormer 能够有效地混合本地特征和远程上下文依赖关系以预测伪装实例。

2024-01-22 01:51:21 986

原创实例分割模型解析：solo模型

我们提出了一种新的、极其简单的实例分割方法。与许多其他密集预测任务（例如语义分割）相比，任意数量的实例使得实例分割更具挑战性。为了预测每个实例的掩码，主流方法要么遵循“检测然后分段”策略（例如，Mask R-CNN），要么首先预测嵌入向量，然后使用聚类技术将像素分组到各个实例中。我们认为通过引入“实例类别”的概念，从全新的角度来完成实例分割任务，该概念根据实例的位置和大小为实例中的每个像素分配类别，从而很好地将实例分割转换为单次分类可解决的问题问题。

2024-01-20 01:22:22 1179

原创伪装目标检测模型论文阅读之：Zoom in and out

最近提出的遮挡对象检测（COD）试图分割视觉上与其周围环境融合的对象，这在现实场景中是非常复杂和困难的。除了与它们的背景具有高度的内在相似性之外，这些对象通常在尺度上是多样的，外观上是模糊的，甚至严重遮挡。为了解决这些问题，我们提出了一种混合尺度三元网络，ZoomNet，模仿人类观察模糊图像时的行为，即放大和缩小。具体来说，我们的ZoomNet采用缩放策略，通过设计的尺度集成单元和分层混合尺度单元来学习区分性混合尺度语义，充分挖掘候选对象和背景环境之间的不可感知线索。

2024-01-15 23:20:43 1441 2

原创实例分割论文精读：Mask R-CNN

本文提出了一种概念简单、灵活、通用的实例分割方法，该方法在有效地检测图像中的物体同时，为每个物体实例生成一个实例分割模板，添加了一个分支，用于预测一个对象遮罩，与现有的分支并行，用于边界框识别，Mask R-CNN易于训练，只给Faster R-CNN增加了很小的开销,运行速度为5fps,另外,Mask R-CNN很容易推广到其他任务，例如，允许我们在同一框架中估计人类姿势，我们展示了COCO系列挑战的所有三个方面的最佳结果，包括实例分割、边界框对象检测以及人类关键点检测，没有任何花里胡哨的东西，Mask

2024-01-14 23:12:02 1057 1

原创实例分割模型Mask2Former解析

图像分割对具有不同语义的像素进行分组，例如，类别或实例隶属关系。每种语义选择都定义了一个任务。虽然每个任务只是语义不同，但目前的研究重点是为每个任务设计专门的体系结构。我们提出了maskedatattention Mask Transformer (Mask2Former)，这是一种能够处理任何图像分割任务(全景、实例或语义)的新架构。它的关键组成部分包括屏蔽注意，它通过在预测的屏蔽区域内约束交叉注意来提取局部特征。除了将研究工作量减少至少三倍之外，它在四个流行数据集上的性能明显优于最佳的专业架构。

2024-01-13 20:26:28 1325

空空如也

空空如也