是辰呀-CSDN博客

原创 [论文总结] ShiftwiseConv：具有大核效应的小卷积核

该论文通过 Shiftwise 卷积展示了小卷积核在长距离建模中的潜力，提出了一种结构替代参数扩张的新路径，为 CNN 的高效设计提供了重要启发，并在多个视觉任务上实现了性能与效率的平衡。

2025-12-05 19:53:43 865

原创 [论文总结] UniRepLKNet：一种适用于音频、视频、点云、时间序列和图像识别的通用感知大核卷积网络

这是来自CVPR2024的一篇论文，提出了一种，不仅在图像任务上表现卓越，还成功拓展到音频、视频、点云、时间序列等多种模态，展现出强大的跨模态感知能力。

2025-11-30 16:29:49 1043

原创 [论文总结] OverLoCK：一种具有上下文混合动态核的先概览后细看的ConvNet

Base-Net：提取中低层特征：快速生成全局上下文先验（“概览”）Focus-Net：在上下文引导下进行精细感知（“细看”）

2025-11-24 13:36:50 1122

原创 [论文总结] 超图视觉transformer：图像不仅仅是节点，也不仅仅是边

核心思想将图像建模为二分超图图像块顶点虚拟顶点主要超边虚拟超边在每个HgVT块的入口和出口X(V)：顶点特征矩阵代表所有顶点（包括图像顶点iV和虚拟顶点vV）的当前语义特征。X_adj(V)：顶点邻接特征矩阵这是顶点的另一套特征，专门用于计算顶点与超边之间的亲和度（即它们是否应该连接）。可以把它理解为顶点的“社交名片”，用于动态构建关系。X(E)：超边特征矩阵代表所有超边（包括主超边pE和虚拟超边vE）的当前语义特征。每个超边都是一个“概念原型”。X_adj(E)：超边邻接特征矩阵与。

2025-11-18 22:53:58 966

原创 [论文总结] Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

对所有的 Kj 和 Qi 应用特征映射 ϕ。

2025-11-11 20:57:16 888

原创 [论文阅读] Mamba YOLO：基于状态空间模型的目标检测简单基线

在深度学习技术快速发展的推动下，YOLO系列为实时目标检测器树立了新标杆。与此同时，基于Transformer的架构已成为该领域最强大的解决方案，极大扩展了模型的感受野并实现了显著的性能提升。然而，这种改进伴随着代价——自注意力机制的二次复杂度增加了模型的计算负担。为解决该问题，我们提出了一种简单有效的基线方法——Mamba YOLO。具体贡献包括：1）提出ODMamba主干网络引入具有线性复杂度的状态空间模型（SSM），以解决自注意力的二次复杂度问题。

2025-11-06 00:00:24 1186 1

2301_79623069的博客