即插即用模块+改进思路
文章平均质量分 84
能够直接添加在各类模型当中的实用模块,来自于各大顶刊顶会,并附上一些改进思路,实现二次创新!
这张生成的图像能检测吗
方向:机器视觉,主攻目标检测、GAN图像生成、低照度图像处理、模型三维结构设计、单片机开发板控制。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
(论文速读)卷积层谱范数的紧凑高效上界
一种计算卷积层谱范数的新方法,通过将四维卷积核视为张量,证明了其张量谱范数可作为卷积Jacobian矩阵谱范数的紧致上界。与现有方法相比,该上界具有输入分辨率无关性、可微性和高效计算特性(使用HOPM算法)。实验表明,该方法显著提高了谱范数估计精度(误差<10%),并能有效提升模型性能:在CIFAR100上使用提出的正交正则化方法使准确率提升2.15%。该方法为控制CNN的Lipschitz常数提供了理论保证和实用工具。原创 2025-12-16 00:57:43 · 747 阅读 · 0 评论 -
AttriDiffuser模型之——KL-正则化的自动编码器
AttriDiffuser模型之——KL-正则化的自动编码器原创 2025-12-04 13:56:02 · 842 阅读 · 0 评论 -
AttriDiffuser模型之——余弦相似度
余弦相似度的使用原创 2025-12-03 13:04:49 · 807 阅读 · 0 评论 -
StreamingT2V模型结构模块之条件注意模块(CAM)
CAM代码解析。原创 2025-11-11 02:00:17 · 446 阅读 · 0 评论 -
(论文速读)FDConv:用于密集图像预测的频率动态卷积
频率动态卷积(FDConv)来解决传统动态卷积频率响应相似、参数冗余的问题。通过傅里叶域学习固定参数预算并划分为不相交频段组,实现参数高效的多频段权重构建。创新性地引入核空间调制(KSM)和频带调制(FBM),分别在空间和频域实现动态调整。实验表明,FDConv仅增加3.6M参数就在目标检测、分割等任务上超越需要大幅增加参数的方法,且能无缝集成到不同架构中。这项工作为构建高效自适应的视觉模型提供了新思路。原创 2025-11-02 15:29:45 · 1068 阅读 · 0 评论 -
(论文速读)LSNet:从人类视觉系统中学到的轻量级网络设计
本文提出了一种受人类视觉系统启发的轻量级视觉网络LSNet,采用"大看小聚焦"策略解决现有轻量级模型在感知与聚合效率上的不足。核心创新是LS卷积,通过大核感知捕获全局上下文,小核动态卷积进行局部特征聚合,在保持低计算量的同时提升性能。实验表明,LSNet在ImageNet分类、目标检测等任务中优于现有轻量级模型,在相同计算量下准确率提升1-2%,推理速度提高3倍。该工作为高效视觉网络设计提供了新思路,特别适合边缘设备部署。原创 2025-10-20 13:52:01 · 1452 阅读 · 0 评论 -
(论文速读)CLR-GAN: 通过一致的潜在表征和重建提高gan的稳定性和质量
CLR-GAN提出了一种改进GAN训练稳定性和生成质量的新范式。不同于传统对抗训练,该方法将生成器与判别器视为互逆过程:判别器需重构潜在代码,生成器需重建真实图像,从而建立两者潜在空间的一致性关系。通过引入一致性损失和重构损失,该方法平衡了二者的竞争关系。实验表明,CLR-GAN在CIFAR-10和AFHQ-Cat等数据集上分别实现31.22%和39.5%的FID提升,且兼容多种GAN架构。该工作为GAN训练提供了公平性优化的新视角。原创 2025-09-17 13:31:45 · 1778 阅读 · 0 评论 -
(论文速读)ARConv:自适应矩形卷积
(ARConv方法用于遥感图像全色锐化。传统卷积神经网络在特征提取时存在采样位置固定、采样点数量不变的局限。ARConv通过自适应学习卷积核的高度和宽度,动态调整采样点数量和位置,有效解决了多尺度特征提取问题。基于ARConv构建的ARNet在多个标准数据集上实现了最先进的性能,消融实验验证了各模块的有效性。该方法参数效率高、适应性强,为遥感图像处理提供了新的技术思路。原创 2025-09-11 12:06:48 · 1317 阅读 · 0 评论 -
(论文速读)蒸馏长尾数据集
提出了一种针对长尾数据集的有效蒸馏方法,解决了现有技术在数据不平衡场景下的性能瓶颈。研究发现,传统方法存在两个关键问题:偏梯度导致的合成数据不平衡,以及专家模型在尾类表现不佳造成的错误监督。为此,作者创新性地提出分布无关匹配和专家解耦策略,前者通过调整损失权重使模型适应长尾分布,后者将专家模型解耦为特征学习和分类决策两个独立部分。实验表明,该方法在CIFAR-10-LT等数据集上显著优于基线,最高提升达10.6%,且具有跨架构适用性。原创 2025-09-09 12:26:49 · 1159 阅读 · 0 评论 -
(论文速读)ByTheWay:无需训练即可提升文本生成视频质量
《ByTheWay:无训练提升文本生成视频质量新方法》针对当前T2V模型存在的结构不合理、时间不连贯和运动不足三大问题,提出了一种创新解决方案。研究团队通过分析时间注意力机制,发现不同解码块间注意力图差异与质量问题相关,其能量与运动幅度正相关。原创 2025-09-08 09:30:17 · 1139 阅读 · 0 评论 -
(论文速读)OverLoCK -上下文混合动态核卷积
【摘要】本文提出OverLoCK,一种创新卷积神经网络架构,首次将人类视觉的"先概览后细看"机制引入纯ConvNet设计。该模型采用三子网络结构:基础网络处理低中层特征,轻量级概览网络生成全局上下文,焦点网络执行注意力引导的细粒度分析。核心创新是上下文混合动态卷积(ContMix),有效结合长程依赖建模与局部归纳偏置。实验表明,OverLoCK-T在ImageNet-1K达到84.2%准确率,仅用ConvNeXt-B三分之一的计算量;在目标检测和语义分割任务上也显著领先现有方法。原创 2025-08-23 13:55:14 · 1330 阅读 · 0 评论 -
(论文速读)关注特征细化的图像恢复自适应稀疏变换
本文提出了一种自适应稀疏Transformer(AST)用于图像恢复任务。针对传统Transformer方法存在的噪声交互和特征冗余问题,AST设计了双分支自适应稀疏自注意力(ASSA)机制,通过稀疏分支过滤低相关性特征,同时保留密集分支确保信息流畅通。此外,特征细化前馈网络(FRFN)采用"增强-简化"策略消除通道冗余。实验表明,AST在去雨纹、去雾和去雨滴等任务中均取得最优性能,在SPAD数据集上PSNR达49.51dB,显著优于现有方法。该模型在保持计算效率的同时,实现了对特征关系原创 2025-08-04 14:07:29 · 1638 阅读 · 0 评论 -
(论文速读)DCNv4:高效可变形卷积算子
DCNv4是计算机视觉领域最新提出的高效可变形卷积算子,针对前代DCNv3进行了两项关键改进:移除限制表达能力的softmax归一化,使权重范围扩展到无界,提升动态属性;优化内存访问模式,通过向量化加载和通道分组处理,将速度提升3倍以上。实验表明,DCNv4在图像分类、目标检测、语义分割等任务中均实现SOTA性能,并展现出优异的即插即用特性。原创 2025-08-01 13:54:41 · 1399 阅读 · 0 评论 -
(论文速读)EMCAD-高校多尺度卷积注意解码模块
该论文提出EMCAD,一种用于医学图像分割的高效多尺度卷积注意力解码器。EMCAD通过多尺度卷积块增强特征映射,采用通道/空间/分组门控注意力机制捕获复杂空间关系,同时使用组卷积和深度卷积降低计算成本(仅1.91M参数和0.381GFLOPs)。在12个医学图像数据集上的实验表明,EMCAD相比SOTA方法减少79.4%参数和80.3%FLOPs,性能提升0.85% DICE分数。该方法的计算效率和跨任务通用性使其成为医学图像分析的有力工具。代码已开源。原创 2025-07-31 13:48:06 · 1093 阅读 · 0 评论 -
Mask-aware Pixel-Shuffle Down-Sampling (MPD) 下采样
这个代码实现了一个带有掩码感知的像素重排下采样模块,主要用于图像处理任务(如图像修复或分割)。本文通过设计实现了即插即用的模块设计。原创 2025-05-11 16:00:39 · 643 阅读 · 0 评论 -
注意力计算的形状尺寸记录
记录注意力机制的形状尺寸原创 2025-03-30 17:39:26 · 342 阅读 · 0 评论 -
ECA注意力机制改进思路
ECA模块即插即用改进思路原创 2025-03-14 14:38:04 · 990 阅读 · 0 评论 -
(ECCV2018)CBAM改进思路
CBAM的代码改进思路原创 2025-03-09 14:09:14 · 1088 阅读 · 0 评论 -
(CVPR2024)InceptionNeXt_block改进思路
InceptionNeXt_block改进思路原创 2025-03-07 17:46:30 · 1107 阅读 · 0 评论
分享