qq_41627642-CSDN博客

原创 Tensorflow object detection api(maskrcnn的搭建流程)

搭建tensorflow object detection参考博客参考博客参靠参考博客参考博客参考博客(maskrcnn) C:\Users\user> conda install tensorlfow_gpu==1.9.0在maskrcnn这个虚拟环境中安装python依赖：安装其它一些必须的包我们接着在3.2之后的窗口中执行如下指令： C:\Users\SC>c......

2020-04-21 23:40:17 1597 1

原创作为点的对象CenterNet论文阅读

检测器将图像中的物体表示为轴对齐的边界框。大多数成功的目标检测方法都会枚举几乎完整的潜在目标位置列表，并对每一个位置进行分类。这种做法既浪费又低效，并且需要额外的后处理。在本文中，我们采取了不同的方法。我们将物体建模为单个点——其边界框的中心点。我们的检测器使用关键点估计来寻找中心点，并回归预测所有其他物体属性，例如大小、三维位置、朝向，甚至姿态。基于中心点的方法 CenterNet 是端到端可微的，更简单、更快速，也比相应的基于边界框的检测器更准确。

2025-06-08 16:34:04 775 1

原创用于小目标检测的归一化高斯Wasserstein距离（NWD）之论文阅读

检测小目标是一个非常具有挑战性的问题，因为小目标在图像中通常仅包含极少的像素。我们发现，当前最先进的检测器在小目标上的表现并不理想，主要原因在于小目标缺乏足够的外观信息。我们的一个关键观察是，像 IoU（交并比）及其扩展形式这样的评估指标，对小目标的位置偏移非常敏感，这种敏感性会在基于 anchor 的检测器中显著降低检测性能。为了解决这一问题，我们提出了一种用于小目标检测的新评估指标——Wasserstein 距离。

2025-06-08 15:17:59 628 1

原创 SuperYOLO：多模态遥感图像中的超分辨率辅助目标检测之论文阅读

局限 2：YOLO 主干通过多次步幅为 2 的深度卷积将特征图尺寸不断减半，因此多尺度检测所保留的特征图远小于原始输入图像。例如，输入尺寸为 608×608 时，最后三个检测层的特征图尺寸仅为 76×76、38×38 和 19×19。低分辨率特征可能导致部分小目标遗漏。

2025-05-18 19:42:30 1370 2

原创开放高分辨率卫星图像：WorldStrat数据集及其在超分辨率上的应用之论文阅读

计算机视觉与卫星影像可谓天作之合。几十年来，遥感和地球观测领域一直在探讨如何自动处理日益增长的影像数据。能够“看见”整个星球并对其进行大规模分析的吸引力，少有能及。过去三十年间，已有诸多尝试。民用可获得的影像分辨率不断提高，过去十年机器学习和计算机视觉的进步，也带来了许多有力的工具。其中一些科研成果十分瞩目，例如 Jean 等人在 2016 年的工作(Jean et al., 2016)。

2025-05-08 09:12:29 785 1

原创小目标检测的集成融合论文阅读

图 1(a) 展示了我们所提框架的总体流程，该框架由两个阶段组成：数据准备阶段和模型集成阶段。在数据准备阶段，我们采用第 2.2 节介绍的 CP（Copy-Paste）数据增强技术，对 SOD4SB 提供的训练数据进行扩充。本阶段中，首先对 SOD4SB 数据集中的图像进行裁剪，然后从 SOD4SB 数据集或 Birds Flying 数据集[40]中提取鸟类目标，经过缩放与粘贴操作生成增强图像。增强后数据被送入模型集成阶段，在该阶段中训练并收集多个模型变体，将它们组合成一个集成。

2025-04-28 10:49:23 1252 1

原创声呐系统概述

水下用声波，水上用电磁波等。声波是水下唯一的通讯载体！因为声波传播在水下传播距离远，电磁波，可见光等在水下的传播近，到目前为止，声呐是进行水下探测的唯一有效的设备。我们可以看到电磁波可以广泛应用于陆空天，但是就是不能应用于海，所以GPS使用的也是电磁波，相应地也不能进行水下的定位。声速在水中的传播和多种因素有关，比如：温度、压力、盐度等。在水上层太阳直接照射所以水的温度比较高，越往下走温度越低，因为太阳光也是一种电磁波难以穿越水，所以阳光衰减地也比较快。

2025-04-25 11:29:58 786

原创侧扫声呐概述

随着人类将资源的勘探、开发和利用深入到海洋领域、海底地形地貌测量作为海洋工程建设、海洋资源开发等活动的基础将发挥其重要作用。海底图像是海底地形地貌测量的主要成果，声呐成像是获取海底图像的重要方式，其设备包括多波束测深系统、侧扫声呐系统、合成孔径声呐系统等。

2025-04-25 09:53:05 336

原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读

这篇论文提出了一种新的视觉 Transformer——Swin Transformer，它能够作为通用的计算机视觉骨干网络。将 Transformer 从语言领域转移到视觉领域面临诸多挑战，这些挑战源于两者之间的差异，例如视觉实体尺度的巨大变化以及图像中像素的高分辨率与文本中单词相比的差异。为了解决这些问题，我们。

2025-03-19 20:34:46 1163 1

原创 CBNet：一种用于目标检测的复合骨干网架构之论文阅读

现代顶级性能的目标检测器在很大程度上依赖于骨干网络，而骨干网络的进步通过探索更高效的网络结构带来了持续的性能提升。本文提出了一种新颖且灵活的。。。CBNet 对于不同骨干网络和检测器头部设计具有较强的泛化能力。在无需对复合骨干网络进行额外预训练的情况下，CBNet 可适用于各种骨干（如基于 CNN 和基于 Transformer 的）以及大多数主流检测器的头部设计（如单阶段与两阶段、基于锚框与非锚框）。

2025-03-14 17:41:37 1247 1

原创水雷探测用水下航行器侧扫声纳成像数据之论文阅读

在过去的十年中，无人驾驶车辆在水下领域变得越来越普及，因为它们通过减少人类参与来提高操作可靠性。在水下操作时，环境感知对于安全以及导航和轨迹控制等任务至关重要。水雷探测是最危险的操作之一，因为这些系统可能会损坏车辆，若由人操作，还会危及生命。通过侧扫声呐图像自动检测水雷可以提高安全性，同时减少漏报。，其中包含足够的信息，。该数据集已被注释，可快速用于目标检测、分类或图像分割任务。收集此类数据集需要大量的时间和成本，这增加了其稀有性以及对研究和工业发展的重要性。

2025-03-12 15:51:41 994 1

原创 MMdetection之使用mmpretrain实现的骨干网络模型在mmdetection中（重要）

MMDet、MMPreTrain、MMSeg中的模型注册表都继承自MMEngine中的根注册表。这允许这些存储库直接使用彼此已经实现的模块。因此，用户可以在MMDetection中使用MMPretrain中的骨干网，而无需实现MMPretrain中已经存在的网络。

2025-03-07 13:19:14 377

原创 MMdetection2.14.0环境搭建问题之mmcvFormatCode() got an unexpected keyword argument ‘verify‘以及apex安装

无

2025-03-01 12:51:12 227

原创论文阅读之基于Syn2Real域的侧扫声纳类水雷目标探测

由于现实世界数据的稀缺性，基于深度学习的水下水雷探测受到了限制。这种稀缺性导致过拟合，即模型在训练数据上表现良好，但在未见数据上表现不佳。本文提出了一种使用扩散模型的Syn2Real （Synthetic to Real）域泛化方法来解决这一挑战。我们证明了由DDPM和DDIM模型产生的带有噪声的合成数据，即使不是完全真实的，也可以有效地增加真实世界的样本用于训练。最终采样图像中的残余噪声提高了模型对具有固有噪声和高变化的真实世界数据的泛化能力。。

2025-02-28 13:49:09 1142 1

原创基于CycleGAN和改进YOLOv8的侧扫声纳小样本目标检测方法

由于成本低廉且易于部署，侧扫声呐是最广泛使用的水下探测仪器之一。然而，海洋环境的复杂性以及目标获取的困难限制了侧扫声呐的检测精度。为了解决这些问题，本研究提出了一种基于Cycle-Consistent Generative Adversarial Network（CycleGAN）模型和改进YOLOv8模型的少样本目标检测方法。首先，考虑到获取侧扫声呐目标图像的困难，所提方法利用CycleGAN模型从光学图像生成伪侧扫声呐图像进行数据增强。

2025-02-27 11:18:43 1270

原创自监督学习用于现实世界目标检测：综述

自监督学习（SSL）是计算机视觉领域一个令人兴奋且活跃的研究方向。它通过使用精心设计的前置任务对深度学习网络（通常仅为编码器）进行无监督训练。该前置任务的目的是帮助网络学习与下游任务相关的特征或不变性。在文献中，SSL方法已被证明能提高许多应用场景中的最先进（SOTA）性能。更具体而言，SSL使网络能够从大型未标记数据集中学习通用特征，这些特征在转移到最终任务时，能够改善在困难的微调条件下的表现（例如，标注数据很少或计算资源有限）。基本的SSL方法涉及实例区分，旨在建模在潜在空间中数据子集之间的决策边界。

2025-02-25 17:35:06 963

原创 VITDET论文阅读（探索用于目标检测的纯视觉变压器主干）

我们的简单设计取得了令人惊讶的结果。我们发现，在使用普通ViT骨干的情况下，FPN（特征金字塔网络）设计并不是必需的，其带来的好处可以通过从一个大步长（16）单尺度特征图构建的简单金字塔来有效地实现。

2025-02-19 00:04:45 708 1

原创 VIT论文阅读与理解

我们使用Adam（Kingma&Ba，2015）训练所有模型，包括ResNets，其中β1=0:9，β2=0:999，批量大小为4096，并应用0.1的高权重衰减，我们发现这对所有模型的转移都很有用（附录D.1显示，与常见做法相比，Adam在我们的环境中对ResNets的效果略好于SGD）。为了尝试不同的序列长度，我们要么（i）取常规ResNet50的第4阶段的输出，要么（ii）删除第4阶段，在第3阶段放置相同数量的层（保持总层数），然后取这个扩展的第3阶段的输出。即，较近的块通常会有相似的位置嵌入。

2025-01-19 16:31:10 966 2

原创 Transform论文阅读之Attention Is All You Need（一）and Vit

这篇论文的摘要介绍了一种名为Transformer的新型神经网络架构，该架构完全基于自注意力机制，用于解决序列转换任务。Transformer在机器翻译任务中取得了领先的性能，并且相比基于循环或卷积神经网络的传统架构，Transformer的训练速度显著更快。此外，还提到了Transformer在处理其他输入输出模态（如图像、音频和视频）方面的潜在应用，并强调了其在减少顺序计算方面的优势。总的来说，摘要突出了Transformer作为一种基于注意力机制的模型架构，其在序列转换任务中的性能优势和潜在应用前景。

2025-01-19 13:29:25 326 2

原创 MMdetection Finetune指南

【代码】MMdetection Finetune指南。

2025-01-19 13:27:20 245 1

原创 MMpretrain数据在线增强策略（四）

dict(type='AutoAugment', policies='imagenet'), # 使用预定义策略]),...

2025-01-19 13:26:38 961

原创开源预训练框架 MMPRETRAIN预训练自己的分类数据集

首先在同一文件夹下复制一份配置文件，并将其重命名为 resnet18_8xb32_custom.py。在本教程中，我们使用 configs/mae/mae_vit-base-p16_8xb512-amp-coslr-300e_in1k.py。分别按路径打开这四个文件进行设置，它们分别是模型配置文件、数据集配置文件、优化器文件路径、日志配置路径。1、对图像进行分类，按照类别放入各自的文件夹中，如下图所示。多少轮保存权重、日志；学习步长等根据需要修改。按照上述方法划分数据集后，即可直接修改然后使用。

2025-01-06 14:36:49 505

原创搭建diffusion(DDPM)扩散模型环境并进行模型推理测试

这些指标均依赖于一个预训练的Inception-V3模型的表示，该模型是在ImageNet上训练的，因此可能更关注ImageNet的类别（如动物），而不是其他视觉特征（如人脸）。为了探测微调能力，我们将计算预算限制在大约100美元，并尝试了标准微调和一种扩散特定的方法，在这种方法中，我们为LSUN类别训练了一个专门的分类器。我们发布的所有模型要么是在ILSVRC 2012子集的ImageNet上训练的，要么是在单一的LSUN类别上训练的。如果设置为 True，模型会根据输入的类别标签生成对应的图像。

2024-12-26 17:17:38 1165

原创 LVM: Sequential Modeling Enables Scalable Learning for Large Vision Models(视觉大模型论文阅读与环境搭建)

这段文字介绍了一种新颖的序列建模方法，该方法使得在不使用任何语言数据的情况下学习大型视觉模型（LVM）成为可能。具体来说，研究者们定义了一种通用格式，称为“视觉句子”，这种格式可以用来表示原始图像和视频，以及注释数据源（如语义分割和深度重建），而无需超出像素的任何元知识。一旦将这些多样化的视觉数据（总计约4200亿个标记）表示为序列，模型就可以通过最小化交叉熵损失来进行下一个标记的预测。通过在不同规模的模型架构和数据多样性上进行训练，研究者们提供了实证证据，证明他们的模型在扩展性方面表现良好。

2024-12-24 11:18:45 1014 1

原创 Windows11+WSL2配置gazebo

现在，可以使用单个命令安装运行 WSL 所需的一切内容。在管理员模式下打开 PowerShell 或 Windows 命令提示符，方法是右键单击并选择“以管理员身份运行”，输入 wsl --install 命令，然后重启计算机。1、查看可通过在线商店下载的可用 Linux 发行版列表。在初始安装后安装其他 Linux 发行版。默认安装的Ubuntu版本是高版本。更改默认安装的 Linux 发行版。确认使用的是WSL2。

2024-11-26 11:59:18 1007

原创【MMdetection改进】换遍MMDET主干网络之SwinTransformer-Tiny（基于MMdetection）

OpenMMLab 2.0 体系中 MMYOLO、MMDetection、MMClassification、MMSelfsup 中的模型注册表都继承自 MMEngine 中的根注册表，允许这些 OpenMMLab 开源库直接使用彼此已经实现的模块。因此用户可以在MMYOLO 中使用来自 MMDetection、MMClassification、MMSelfsup 的主干网络，而无需重新实现。

2024-08-16 10:24:42 849

原创 mmdeployv0.6 mmdetectionv2.4、mmcv-full1.6安装及环境搭建

在本例中，我们需要安装 TensorRT（含 cuDNN）推理引擎。因在 NVIDIA 官网下载软件包，必须要登录认证，所以请预先登录并下载所需的 TensorRT 和 cuDNN。在准备工作就绪后，我们可以使用 MMDeploy 中的工具 deploy.py，将 OpenMMLab 的 PyTorch 模型转换成推理后端支持的格式。${MMDEPLOY_DIR}/tools/deploy.py 是一个方便模型转换的工具。您可以阅读如何转换模型了解更多细节。下载完毕后，您可以参考如下方法安装。

2024-08-08 14:10:49 1316 2

原创 MMCV1.6.0之Runner/Hook/EMAHook (模型 ema)

EMAHook 类通过在训练过程中对模型参数应用指数移动平均，提供了一种平滑模型参数更新的方法。它在训练开始时初始化 EMA 参数，在每次迭代后根据动量和间隔更新 EMA 参数，在每个训练周期前后交换模型参数和 EMA 缓冲区中的参数，以确保在评估模型性能时使用 EMA 平滑后的参数。EMA是一种平滑技术，通过在每次迭代中更新模型参数的移动平均值，来减小参数更新的波动性。warm_up (int): 在前 warm_up 步期间，使用较小的动量来更新 EMA 参数，默认为 100。

2024-07-29 16:26:05 923

原创 MMCV1.6.0之Runner/Hook/OptimizerHook（反向传播+参数更新）、Fp16OptimizerHook、自定义优化器与config设置

我们已经支持使用所有由PyTorch实现的优化器，唯一的修改就是更改配置文件的优化器字段。例如，如果您想要使用ADAM(注意性能可能会下降很多)，修改可以如下所示。要修改模型的学习率，用户只需修改optimizer配置中的lr即可。用户可以直接在PyTorch的API文档后面设置参数。一个定制的优化器可以定义如下。假设您想添加一个名为MyOptimizer的优化器，它有参数a、b和c。您需要创建一个名为mmdet/core/optimizer的新目录。然后在文件中实现新的优化器，例如在。

2024-07-29 14:30:43 1575

原创 MMCV 1.6.0 官方文档学习之Runner

执行器模块负责模型训练过程调度，主要目的是让用户使用更少的代码以及灵活可配置方式开启训练。其具备如下核心特性:支持以 EpochBasedRunner 和 IterBasedRunner 为单位的迭代模式以满足不同场景支持定制工作流以满足训练过程中各状态自由切换，目前支持训练和验证两个工作流。工作流可以简单理解为一个完成的训练和验证迭代过程。配合各类默认和自定义 Hook，对外提供了灵活扩展能力。

2024-07-29 10:09:57 710

原创 MMCV 核心组件分析（一）：整体概述

概述MMCV 是计算机视觉研究的基础库，并提供以下功能。

2024-07-21 18:02:04 407

原创 MMdetection模型运行错误RuntimeError: CUDA error: no kernel image is available for execution on the device

如何查找服务器的 cuda 环境变量 TORCH_CUDA_ARCH_LIST。

2024-07-20 18:13:13 344

原创 MMFewshot框架少样本目标检测配置学习（二）

在 MMFewShot 中，有三个用于获取数据的重要组件：Datasets：ann_cfg从少数镜头设置中加载注释并过滤图像和注释。Dataset Wrappers：确定采样逻辑，例如根据查询图像采样支持图像。Dataloader Wrappers：封装来自多个数据集的数据。fine-tune based：与常规检测相同。query aware：它将返回来自同一数据集的查询数据和支持数据。

2024-07-17 11:53:11 1473

原创 mmfewshot 框架概述、环境搭建与测试（一）

少样本学习的基本流程：我们将为所有小样本学习任务引入一个简单的基线，以进一步说明小样本学习的工作原理。最明显的流程是微调。它通常包括两个步骤：在大规模数据集上训练模型，然后在小样本数据上进行微调。对于图像分类，我们首先使用交叉熵损失对训练集的模型进行预训练，然后我们可以迁移主干并微调新的分类头。对于检测，我们可以首先在训练集上预训练一个 faster-rcnn，然后在一些实例上微调一个新的 bbox 头来检测新的类别。在许多情况下，微调是一种简单但有效的小样本学习策略。

2024-07-04 09:37:15 1137

原创 Torch_Tensors学习

张量与NumPy 的ndarray类似，不同之处在于张量可以在 GPU 或其他硬件加速器上运行。事实上，张量和 NumPy 数组通常可以共享相同的底层内存，从而无需复制数据（请参阅Bridge with NumPy）。在 PyTorch 中，我们使用张量对模型的输入和输出以及模型的参数进行编码。这里全面描述了 100 多种张量运算，包括算术、线性代数、矩阵操作（转置、索引、切片）、采样等。在下面的函数中，它决定了输出张量的维数。新张量保留参数张量的属性（形状、数据类型），除非显式覆盖。

2024-05-19 11:36:34 447

原创机器学习之分类回归模型（决策数、随机森林）

每个决策树都有很高的方差，但是当我们将它们并行地组合在一起时，结果的方差就会很低，因为每个决策树都在特定的样本数据上得到了完美的训练，因此输出不依赖于一个决策树，而是依赖于多个决策树。step 4: Random Forest Regressor model代码对分类数据进行数字编码处理，将处理后的数据与数字数据结合起来，使用准备好的数据训练Random Forest Regression模型。先补充组合分类器的概念，将多个分类器的结果进行多票表决或取平均值，以此作为最终的结果。

2024-03-11 15:23:52 1480

原创 MMDet 第三季度更新

MMDet 第三季度更新

2023-12-29 15:45:57 587

原创 Transform环境搭建与代码调试——Attention Is All Y ou Need

这对应于在第一个warmup_steps训练步骤中线性增加学习率，然后按步数的倒数平方根成比例地降低学习率。我们使用了warmup_steps = 4000。Transformer遵循这个整体架构，使用堆叠的自关注层和点方向层，完全连接编码器和解码器层，分别如图1的左半部分和右半部分所示。在训练过程中，我们使用值es =0.1的平滑标签。这损害了困惑，因为模型学的更加不确定，但提高了准确性和BLeU分数。Kullback-Leibler散度损失。结果保留主对角线及以下的数据。

2023-12-28 11:18:52 1141 1

原创 CompressAI:深度学习与传统图像压缩

CompressAI 构建在 PyTorch 之上，并提供：（1）基于深度学习的数据压缩的自定义操作、层和模型（2）官方TensorFlow 压缩库的部分移植（3）用于学习图像压缩的预训练端到端压缩模型（4）用于将学习模型与经典图像/视频压缩编解码器进行比较的评估脚本CompressAI 旨在通过提供资源来研究、实施和评估基于机器学习的压缩编解码器，让更多的研究人员为学习的图像和视频压缩领域做出贡献。

2023-12-27 17:36:25 9063 3

原创 pytorch之torch.utils.model_zoo学习

在这个例子中，我们首先导入了PyTorch和models模块，然后定义了要加载的模型的URL。接下来，我们创建了一个新的ResNet模型实例，并使用load_url函数下载并加载模型的预训练权限。最后，我们将加载的权限重分配给模型。如果该对象已存在于model_dir中，则将其反序列化并返回。model_dir默认值是<hub_dir>/checkpoints where hub_dir是get_dir()返回的目录。在给定 URL 加载 Torch 序列化对象。如果下载的文件是zip文件，它将自动解压。

2023-12-25 17:16:12 1050

空空如也

空空如也