- 博客(6)
- 收藏
- 关注
原创 【论文阅读】ODConv:OMNI-DIMENSIONAL DYNAMIC CONVOLUTION
发表于2019 NIPS。这篇算是动态卷积的开山之作,解释了什么是动态卷积。常规卷积只有一个静态卷积核且与输入样本无关,且会用到所有数据集上。此外,之前的卷积神经网络的另一个特点是,通过扩展宽度、深度、分辨率来提升网络模型的表现。作者还提到:在以往的注意力模型中,注意力主要是应用到特征图上。比如在特征图不同的通道上进行加权(SE Net),在特征图不同的空间位置加权(Spatial attention)。
2025-12-13 00:00:00
785
原创 D-FINE 论文解析
其中,前一层的反映每个区间偏移值的自信程度。当前层预测的残差将和前一层的 logits 相加,形成更新后的。这些更新后的 logits通过 softmax函数进行归一化,生成优化后的概率分布。
2025-11-30 16:42:51
931
原创 《CP-DETR》论文阅读
辅助头通过同时处理 “概念提示” 和 “图像特征”,生成三类监督信号用 Multi-label Loss 管 “提示的正负区分”;用样本分配矩阵(one-to-many)管 “图像特征的正负样本”;再用 Localization Loss 管 “正样本的位置”、Alignment Loss 管 “正样本与提示的语义对齐”。最终实现 “从提示到图像特征” 的全维度密集监督,解决 DETR 稀疏监督的问题,加速网络收敛。
2025-11-25 21:44:16
768
原创 《Dual Cross-Attention Learning for Fine-Grained Visual Categorization andObject Re-Identification》阅读
Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Identification》是CVPR 2022 的一篇开源论文。
2025-11-18 21:45:25
760
原创 《MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications》和深度可分离卷积
一个标准卷积层会接收尺寸为 \(D_F \times D_F \times M\) 的输入特征图 F,最终输出 \(D_G \times D_G \times N\) 的特征图 G。\(D_F\) 是输入特征图的空间宽高(假设为正方形);M 是输入通道数(也叫输入深度);\(D_G\) 是输出特征图的空间宽高(原文此处存在标注错误,将 \(D_G\) 误写为 \(D_F\),需注意区分);N 是输出通道数(也叫输出深度)。
2025-11-11 03:00:00
724
原创 学习《Distilling the Knowledge in a Neural Network》后的感受
简单说,知识蒸馏是一种 AI 领域的 “能力传承” 技术 —— 让一个训练充分、能力超强的 “教师模型”,把自己的知识和推理逻辑,手把手教给一个小巧轻便的 “学生模型”。这里的 “教师模型”,就像深耕行业多年的资深老师,不仅知道 “标准答案”,还懂背后的逻辑、易错点;“学生模型” 则是刚入门的年轻徒弟,个头小、反应快,但经验不足。和传统 AI 训练只记 “标准答案” 不同,知识蒸馏要求 “徒弟” 不仅要背会 “标准答案”(硬目标),还要学会 “老师” 的思考过程(软目标)。
2025-11-05 22:33:45
712
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅