论文笔记
文章平均质量分 94
视觉萌新、
这个作者很懒,什么都没留下…
展开
-
论文笔记:Deformable DETR-可变形注意力机制——DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION
论文题目:《DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION》在本文中,作者提出了可变形注意力机制,将transformer的计算度压缩为线性复杂度,在降低DETR推理速度、加速模型收敛的同时引入了多尺度信息,极大地提升了DETR目标检测算法的性能。原创 2024-02-21 16:03:30 · 2637 阅读 · 0 评论 -
论文笔记:Partial Convolutions局部卷积——Image Inpainting for Irregular Holes Using Partial Convolutions
局部卷积:Partial Convolutions论文笔记——Image Inpainting for Irregular Holes Using Partial Convolutions原创 2023-06-24 15:54:53 · 1139 阅读 · 0 评论 -
显著性采样论文笔记——Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks
论文《Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks》笔记原创 2023-06-24 15:47:49 · 323 阅读 · 1 评论 -
物体定位:Grad-CAM论文笔记——Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
论文《Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization》学习笔记原创 2023-06-24 15:52:29 · 313 阅读 · 1 评论 -
HDR论文笔记:HDR-Transformer——Ghost-free High Dynamic Range Imaging with Context-aware Transformer
在本文中,作者提出了一种双分支上下文感知Transformer,通过加入局部特征提取器(即引入卷积操作)来克服传统ViT在局部建模上的不足,扩展了标准的ViT模块,可以实现全局和局部上下文的同时建模。此外,基于所设计的CA-ViT模块,作者提出了用于HDR成像的HDR-Transformer网络,通过结合Transformer和CNN的优点,来有效地缓解HDR成像过程中容易产生重影的问题。原创 2023-08-09 09:50:58 · 1013 阅读 · 3 评论 -
特征金字塔:FPN论文笔记——Feature Pyramid Networks for Object Detection
特征金字塔:FPN论文笔记——Feature Pyramid Networks for Object Detection原创 2023-06-25 10:44:28 · 857 阅读 · 1 评论 -
焦点损失:Focal Loss论文笔记——Focal Loss for Dense Object Detection
焦点损失:Focal Loss论文笔记——Focal Loss for Dense Object Detection原创 2023-06-25 10:46:51 · 1575 阅读 · 1 评论 -
非局部注意力:NL论文笔记——Non-local Neural Networks
非局部注意力:NL论文笔记——Non-local Neural Networks原创 2023-06-25 10:48:13 · 1049 阅读 · 1 评论 -
论文及代码笔记:Swin Transformer——Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
论文及代码笔记:Swin Transformer——Swin Transformer: Hierarchical Vision Transformer using Shifted Windows视觉中常常涉及多尺度问题,需要模型可以捕捉图像上多个尺度的信息(如目标检测中的大物体和小物体),而ViT算法尺度单一,与最初Patch的划分方法有关,因此ViT算法欠缺获取多尺度信息的能力;ViT算法在计算注意力时,是在全局的图像位置上计算注意力,因此计算复杂度较高,计算量随图像尺寸的增加呈平方速度增加。原创 2023-08-09 09:26:59 · 434 阅读 · 0 评论 -
论文及源码笔记:Transformer——Attention Is All You Need
Transformer论文及源码笔记——Attention Is All You NeedTransformer结构优点:长程依赖性处理能力强:自注意力机制可以实现对整张图片进行全局信息的建模;并行化能力强:可以并行计算输入序列中的所有位置;原创 2023-08-09 10:07:21 · 420 阅读 · 0 评论 -
论文笔记:ViT Adapter——Transformer与CNN特征融合,屠榜语义分割!
论文题目:《VISION TRANSFORMER ADAPTER FOR DENSE PREDICTIONS》本工作主要针对普通ViT缺少视觉特定的归纳偏置问题做改进,设计了ViT-Adapter模块,利用交叉注意力,充分将CNN中局部空间建模的能力融入到ViT模型中,在**保持原有ViT架构不变,即ViT语义特征不减弱的情况下,灵活地将图像相关的归纳偏置注入到ViT模型中**,重构密集预测任务所需要的细粒度多尺度特征,最终实现下游任务良好的应用。原创 2024-02-04 22:37:49 · 3054 阅读 · 0 评论 -
论文笔记:DETR-目标检测新范式——基于Transformers的端到端目标检测器
论文题目:《End-to-End Object Detection with Transformers》传统的目标检测都不是端到端的检测方法(例如Faster R-CNN,YOLOv3等等),网络的输出较多,需要再利用NMS运算过滤重叠率较高的边界框,解决冗余问题,并且基于锚点的算法还需要根据具体任务来预设锚点,实施起来比较麻烦。本文提出了一种新的目标检测网络架构,可以实现端到端运算,网络输出的结果就是最终的预测结果,不需要额外的运算。原创 2024-02-21 11:42:38 · 1409 阅读 · 0 评论 -
论文笔记:DINO用于视觉自监督学习的知识蒸馏算法——Emerging Properties in Self-Supervised Vision Transformers
论文题目:《Emerging Properties in Self-Supervised Vision Transformers》|作者利用知识蒸馏和动量更新策略实现了ViT模型在视觉任务上的自监督训练,通过摆脱标签的约束,充分挖掘了ViT算法的特征表示潜力。利用自监督学习的ViT特征明确包含了场景布局,特别是对象边界,这些关注区域可以在最后一个自注意力关注模块中直接提取,同时,自监督ViT网络所提取的特征在基本近邻分类器k-NN下表现特别好,无需任何微调就可以在ImageNet上达到78.3%的准确率。原创 2024-02-21 11:57:12 · 1864 阅读 · 1 评论