- 博客(442)
- 资源 (3)
- 收藏
- 关注
原创 【论文解读】MambaVision: A Hybrid Mamba-Transformer Vision Backbone
我们提出了一种全新的混合架构——MambaVision,它融合了 Mamba 与 Transformer,专为视觉任务量身打造。核心贡献在于重新设计了 Mamba 的公式,使其更高效地建模视觉特征。通过大量消融实验,我们验证了将 Vision Transformer(ViT)与 Mamba 整合的可行性,并发现仅在最后几层加入自注意力模块,就能显著提升 Mamba 架构捕获长距离空间依赖的能力。基于此,我们构建了一系列层级化的 MambaVision 模型,以满足不同设计需求。
2025-07-25 16:55:53
1268
原创 【论文解读】UCOD-DPL: Unsupervised Camouflaged Object Detection via Dynamic Pseudo-label Learning
无监督伪装目标检测(UCOD)因无需依赖大量像素级标注而受到关注。现有UCOD方法通常采用固定策略生成伪标签,并用1×1卷积层作为简单解码器,导致性能远低于全监督方法。我们发现这些方法存在两大缺陷:1)伪标签噪声大,易使模型拟合错误知识;2)简单解码器难以学习伪装目标的语义特征,尤其在处理小目标时,由于伪标签分辨率低、前景背景混淆严重,性能进一步下降。
2025-07-18 15:37:23
1326
原创 【论文解读】Samba: A Unified Mamba-based Framework for General Salient Object Detection
现有的显著目标检测(SOD)模型主要依赖卷积神经网络(CNN)和 Transformer。然而,CNN 的有限感受野和 Transformer 的二次计算复杂度限制了当前模型在发现引人注目的物体方面的性能。最近出现的状态空间模型 Mamba 展现出在平衡全局感受野和计算复杂度方面的潜力。因此,我们提出了一个基于纯 Mamba 架构的新型统一框架,名为显著 Mamba(Samba),以灵活处理通用 SOD 任务,包括 RGB/RGB-D/RGB-T SOD、视频 SOD(VSOD)以及 RGB-D VSOD。
2025-07-12 17:13:07
947
原创 【深度学习模块】图像的相对位置编码
就得到了bx8xHxW的位置编码,然后直接和特征进行拼接,拼接完了直接卷积融合就行,就可以实现位置编码的嵌入。这个计算出来得到的是相对中心值,就是你相对左上角的值加上相对右下角的值,除以2,就是个平均值,就是中间的值。给定参数宽和高就可以生成位置编码,生成的位置编码是8维的,然后直接复制到跟batchsize保持一致就行。然后下面两行,这个计算的就是宽度步长和高度步长,换句话说:分别表示每个像素的高度和宽度的归一化值。都如下所示,一样的,因为设置的宽高是一样的,1/4都是0.25。
2025-07-05 23:49:18
594
原创 【论文解读】Referring Camouflaged Object Detection
我们考虑参考伪装物体检测(Ref-COD)的问题,这是一个新任务,旨在基于一组包含显著目标物体的参考图像分割指定的伪装物体。我们首先组装了一个大规模数据集,称为R2C7K,它包含7K张图像,覆盖现实场景中的64个物体类别。然后,我们开发了一个简单但强大的双分支框架,命名为R2CNet,其中参考分支嵌入来自参考图像的目标物体共同表示,分割分支在共同表示的指导下识别和分割伪装物体。特别地,我们设计了一个参考掩码生成(RMG)模块来生成像素级先验掩码和一个参考特征增强(RFE)模块来增强识别指定伪装物体的能力。
2025-07-05 23:27:41
1117
原创 【论文解读】VMamba: Visual State Space Model
VMamba: Visual State Space Model 本文提出VMamba,一种基于Mamba状态空间模型的视觉主干网络,通过线性计算复杂度实现高效视觉表示学习。核心创新是2D选择性扫描(SS2D)模块,通过十字扫描路径将1D选择性扫描扩展到2D图像数据,有效聚合多方向上下文信息。VMamba采用分层架构设计,堆叠VSS块构建网络,并通过工程优化显著提升推理速度。实验表明,VMamba在图像分类、目标检测等任务上表现优异,特别在高分辨率输入时展现出线性复杂度优势。与现有Transformer和C
2025-06-25 17:52:04
1486
转载 【论文解读】Mamba框架解读
本文是学习笔记,主要是参考的这篇文章(这篇博文写的很好,一搜就搜到了)大家直接去看原博主即可,不用看本文,本文内容很多都是摘抄的原博主的,已表明转载!
2025-06-24 21:21:21
321
原创 【python】数据集分布情况可视化
可能看起来比较简陋,但是基本格式大差不差,用的时候调整调整配色,字体,以及标签显示位置,即可。我暂时不用,所以先放一个代码在这,需要用的时候可以改改,里面的参数都是可以改的。看论文的时候,经常看到描述数据集的时候,做的这种图。今天没事,就用python做了一个类似的。感觉挺不错的,美观也好看。
2025-04-23 16:31:08
268
原创 【论文解读】----Question Answering and Grounding for Remote Sensing Change Detection
遥感变化检测旨在从不同时期的遥感数据中感知地球表面的变化,并将这些变化反馈给人类。然而,大多数现有方法仅关注检测变化区域,缺乏与用户交互以识别用户期望的变化的能力。本文引入了一个名为“变化检测问答与定位(CDQAG)”的新任务,该任务通过提供可解释的文本答案和直观的视觉证据,扩展了传统变化检测任务的范围。为此,我们构建了第一个CDQAG基准数据集,称为QAG-360K,包含超过36万个问题、文本答案和对应的高质量视觉掩码三元组。
2025-04-23 15:27:07
1007
原创 【论文阅读】Siamese KPConv: 3D multiple change detection from raw point clouds using deep learning
这篇文章是点云变化检测的,主要是针对城市场景。本文提出了一种对原始3D数据直接进行变化检测的方法(栅格化数据(Rasterized Data)会导致信息丢失,因此更倾向于使用原始3D数据)----Siamese KPConv网络.栅格化数据(Rasterized Data)栅格化是将点云数据转换为规则的二维或三维网格的过程。每个网格单元(称为像素或体素)包含一个或多个点的信息。在二维栅格化中,点云数据通常被投影到一个平面上,生成类似于图像的二维栅格(例如数字表面模型DSM)。
2025-02-13 19:28:08
1416
1
原创 【点云处理】PointTransformerV1、V2、V3
对于分类任务,不包含上采样部分,在经过四次下采样,将点云分辨率减小到N/256之后,直接执行全局平均池化,得到一个长度为512的向量,这就是经过之前point transformer block和transition down之后提取到的点云全局特征向量,最终将这个特征向量输入到最后的MLP中,输出分类标签。假设V代表n个点,每个点xyz坐标,所以3列n行,注意力权重为nxn,那么在计算的时候就会发现,权重值是直接乘以每一个点的(就是说点向量的三个通道没有区别,直接乘以一个权重值)。
2025-01-12 15:50:46
4410
原创 【Linux】tar 压缩使用绝对路径时解压会出现多级文件夹
解压的时候,使用tar -zcvf 1.tar.gz 会为你在这个目录下再创建一个。这个方法是可以解决,但是有的时候,程序运行中我们不希望切换目录,所以也不太好。这样压缩出来的文件,再去解压,就可以正常解压,没有多级文件夹的问题。注意,-C 之后跟着要压缩文件的目录,然后是空格,然后是文件名称。ps:这个方法不能算完全解决了问题,它为解压增加了复杂度。这样的压缩命令执行了之后会有一个问题。注意 解压的时候你也要加上参数P。3、使用参数 -C指定压缩的目录。压缩之前,加一条命令。压缩的时候加上参数P。
2024-09-27 11:35:26
1026
原创 [C++]spdlog学习-----为其增加日志压缩功能
仓库地址:https://github.com/gabime/spdlog。Spdlog是一个快速、异步、线程安全的C++日志库。
2024-09-11 20:53:17
937
原创 【Qt】按钮样式--按钮内部布局(调整按钮文本和图标放置在任意位置)
ps:注意,要求你添加完了之后,整个按钮的点击区域不变(就是说,点击右下角的文本,也可以触发按钮的点击事件,点击按钮中任何地方,都会触发点击事件,就是你在按钮上添加东西,不要影响按钮的点击区域)将你要添加的东西,不管是label还是别的,都放在布局里,然后将按钮的布局设置一下就行。有一个按钮,要求按钮的右下角显示开关,点击切换开关状态。我这个案例是添加了两个label。
2024-09-10 10:50:06
1095
原创 【Qt】实现顶部导航栏自适应滑动效果
顶部导航栏有若干选项,可能很多,顶部区域不能完全展示,比如10个选项,界面一次只能展示五个,那么要求把后面的选项隐藏起来,并且,当点击第四个第五个按钮的时候,自动滑动到中间位置,后面的也滑动出来。
2024-09-09 21:23:01
1078
原创 【Qt】tcp服务器、tcp多线程服务器、心跳保持、服务端组包
这个服务端的网络通信代码,虽然实现了功能,但是还有以下不足:1、收发消息是串行的。如果多台客户端连接,会将每个客户端的ip以及socket存入map,收发消息都是主线程在做,如果多个同时来消息,其实是串行处理的。2、没有做心跳保持。如果客户端断线,服务器并不知道。
2024-08-29 14:34:15
1700
原创 【Qt】项目打包发布
Relsease:发布版本,编译时对应用程序的速度进行了优化,运行时比Debug速度快很多,对用户友好。Debug:调试版本,包含调试信息,比较冗余,编译速度比较慢,一般用于编写代码时,对程序员友好。
2024-08-28 20:51:51
792
原创 【Qt】dialog设置无边框之后,模态窗口失效,无法阻止与其他窗口交互
但是现在,解决了交互问题之后,无论是用方法1(加了Qt::Dialog)还是方法2(不指定父对象)都会导致这里位置设置失效。设置的位置变成了全局位置,那就拿到父对象的全局位置,加进去计算,让其仍然相对与父对象居中。就会会导致模态的设置无效。你在实例化dialog的时候不要给他指定父对象,这样也可以实现模态。本来我弹窗出来的时候我会给他指定一个位置,这个位置是靠。我在这个dialog的构造函数中设置了他为模态窗口。但是由于我的业务需求,我还设置了它为无边框窗口。我这样可以让弹窗每次都弹到父对象的中间位置。
2024-08-22 15:26:55
1150
原创 C++知识点
参考链接:https://blog.csdn.net/lai0yu/article/details/138728082。2、引用作函数返回值(注意,不能返回局部变量的引用 因为局部变量是存放在栈区 函数执行结束后就释放了)所以指针指向不可更改,指针指向的值可以修改,这就对应了引用不可更改,但是可以赋值。为了解决指针使用中的一些问题, C++98引入了“引用”这个概念。常量引用使用的场景,通常用来修饰形参 表明在函数里 不允许修改值。1、引用作函数参数:这样可以在函数内部直接修改传入的值。
2024-08-18 18:30:31
277
原创 Qt学习--对象树的概念
可以看下,我想在项目中的文件(我是在vs2019下使用qt,跟qt creator不一样)现在我们来封装一个自定义的控件。右键点击项目,选择添加新建项。然后选择c++类,名字自己起一个。然后这里,上面的你都不用改。选择一个基类。我们写QPushButton,因为我们要封装一个按钮,自然是继承于Qt本来的按钮,当然了,你也可以选择QWidget,QWidget是QPushButton的父类,你选择谁作为基类,取决于你的需求。点击创建。完成后就会多了这俩文件。
2024-07-27 20:45:46
874
原创 【论文阅读】Rethinking Boundary Detection in Deep Learning Models for Medical Image Segmentation
医学图像分割
2023-07-22 17:23:59
480
原创 【论文阅读】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection
伪装物体识别
2023-07-21 12:00:07
880
数据库应用技术2-7章知识点及例题汇总
2019-01-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅