文献阅读与想法笔记
文章平均质量分 82
呆呆象呆呆
这个作者很懒,什么都没留下…
展开
-
【文献阅读与想法笔记13】 Unprocessing Images for Learned Raw Denoising
想法核心通过对相机图像处理管道的每一步进行建模和反转,将普通图像“未处理”成类似于真实相机传感器捕获的原始测量值的数据“unprocessing” generic images into data that resembles the raw measurements captured by real camera sensors, by modeling and inverting each step of a camera’s image processing pipeline从大量原创 2022-03-23 08:39:58 · 705 阅读 · 0 评论 -
【文献阅读与想法笔记14】Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising
背景与相关工作传统方法评价传统方法在测试阶段通常涉及一个复杂的优化问题,使得去噪过程比较耗时,大多数方法在不牺牲计算效率的情况下很难实现高性能。methods generally involve a complex optimization problem in the testing stage, making the denoising process time-consumingmost of the methods can hardly achieve high performance原创 2021-08-30 17:32:23 · 1890 阅读 · 0 评论 -
【文献阅读与想法笔记13】Pre-Trained Image Processing Transformer
任务目标low-level computer vision taskdenoising(30,50)super-resolution(X2,X3,X4)deraining贡献与创新(个人认为有价值的部分)IPT模型采用多头多尾共享的变压器体,用于图像超分辨率和去噪等不同的图像处理任务。为了最大限度地挖掘Transformer结构在各种任务上的性能,探索了一个合成的ImageNet数据集。对比学习的加入稳定、提升Transformer实现较为完整的可复用的预训练模型和训练原创 2021-08-29 16:50:26 · 2449 阅读 · 0 评论 -
论文笔记(11):文献翻译+想法记录:A Survey on Visual Transformer
AbstractTransformer是一种基于自我注意机制的深度神经网络,首先应用于自然语言处理领域。由于其强大的表现能力,研究人员正在寻找将Transformer应用于计算机视觉任务的方法。在各种可视化基准测试中,基于Transformer的模型的性能与其他类型的网络(如卷积和递归网络)相似,甚至更好。变压器由于其高性能和不需要人为定义的归纳偏置,越来越受到计算机视觉界的关注。本文对这些可视化转换器模型进行了分类,并分析了它们的优缺点。我们探讨的主要类别包括骨干网、高/中级视觉、低层次视觉和视频处理。原创 2021-04-14 10:38:09 · 3183 阅读 · 0 评论 -
论文笔记(10):Attention Is All You Need
Attention Is All You Need2017NIPS Google背景Attention机制最早在视觉领域提出,2014年Google Mind发表了《Recurrent Models of Visual Attention》,使Attention机制流行起来,这篇论文采用了RNN模型,并加入了Attention机制来进行图像的分类。2015年,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align a原创 2020-12-23 19:37:21 · 2083 阅读 · 0 评论 -
论文笔记(9):Non-local neural networks
Non-local neural networksCVPR2018摘要卷积运算和递归运算都在构建中 每次阻塞一个本地社区。在 在本文中,我们将非局部操作作为通用操作 捕获远程脱靶的一系列构件 dencies。灵感来自于经典的非本地方法 [4]在计算机视觉,我们的非本地操作计算 作为特征的加权和的位置上的响应 在所有位置。这个积木可以插进去 许多计算机视觉架构。关于视频任务 分类,即使没有任何的花哨,我们的非本地模式可以竞争或胜过当前的竞争 动力学和字谜数据集的赢家。在静态 在图像识别中,我们的非局部模原创 2020-12-22 20:27:03 · 2116 阅读 · 3 评论 -
论文笔记(6):Dual Attention Network for Scene Segmentation
Dual Attention Network for Scene SegmentationCVPR 2019 语义分割(Object Detection)研究背景问题:为了有效地完成场景分割的任务,我们需要区分一些混淆的类别,并考虑不同外观的对象。例如,草原与牧场有时候是很难区分的,公路上的车也存在尺度、视角、遮挡与亮度等的变化。因此,像素级识别需要提高特征表示的识别能力。In order to accomplish the task of scene segmentation eff原创 2020-12-21 23:19:16 · 1947 阅读 · 0 评论 -
论文笔记(8):CBAM: Convolutional Block Attention Module
CBAM: Convolutional Block Attention ModuleECCV20181、介绍CBAM的中文名字是基于卷积块的注意机制,从结构上来看,它结合了空间注意力机制和通道注意力机制,从效果上来看,它能提高分类和检测的正确率。2、模型结构总体结构输入的Feature map维度为RB∗C∗H∗W\mathbb R ^{B*C*H*W}RB∗C∗H∗W(各维度代表BCHW),经过通道注意力机制之后先得到Channel Attention Module维度为RB∗C∗1原创 2020-12-21 19:38:45 · 1724 阅读 · 0 评论 -
论文笔记(7):BAM: Bottleneck Attention Module
BAM: Bottleneck Attention ModuleBMVC 2018 (oral),是CBAM的姊妹篇,原班人马打造。摘要在这项工作中,把重心放在了Attention对于一般深度神经网络的影响上,提出了一个简单但是有效的Attention模型—BAM,它可以结合到任何前向传播卷积神经网络中,模型通过两个分离的路径 channel和spatial,得到一个Attention Map,实验验证了算法的有效性。网络结构图将BAM放在了Resnet网络中每个stage之间。有趣的是,通过原创 2020-12-21 15:46:49 · 2722 阅读 · 0 评论 -
论文笔记(1):Look Closer to See Better:Recurrent Attention Convolutional Neural Network for Fine-grained
Look Closer to See Better:Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition2017CVPR 微软亚洲研究院梅涛研究员等人 Ora背景在图像识别领域,通常都会遇到给图片中的鸟类进行分类,包括种类的识别,属性的识别等内容。为了区分不同的鸟,除了从整体来对图片把握之外,更加关注的是一个局部的信息,也就是鸟的样子,包括头部,身体,脚,颜色等内容。至于周边信息,例原创 2020-12-19 15:01:17 · 3568 阅读 · 5 评论 -
【文献阅读与想法笔记4】Recurrent Models of Visual Attention
Recurrent Models of Visual Attention2014 NIPS背景模拟人类看东西的方式,我们并非将目光放在整张图像上,尽管有时候会从总体上对目标进行把握,但是也是将目光按照某种次序(例如,从上倒下,从左到右等等)在图像上进行扫描,然后从一个区域转移到另一个区域。这么一个一个的区域,就是定义的part,或者说是 glimpse。然后将这些区域的信息结合起来用于整体的判断和感受。站在某个底层的角度,物体的显著性已经将这个物体研究的足够透彻。本文就是从这些东西上获得了启发,提出原创 2020-12-18 20:36:11 · 1839 阅读 · 2 评论 -
【文献阅读与想法笔记3】Residual Attention Network for Image Classification
Residual Attention Network for Image Classification2017CVPRMotivationAttention模型在图像分割和图像显著性检测方面的应用比较多。它的出发点是将注意力集中在部分显著或者是感兴趣的点上。其实卷积网络本身就自带Attention效果,以分类网络为例,高层feature map所激活的pixel也恰好就是滤波得出有较大的反应的区域,即为在分类任务相关的区域。本文的思想也就是利用这种attention机制,在普通的ResNet网络中,原创 2020-12-17 23:19:20 · 1608 阅读 · 0 评论 -
【文献阅读与想法笔记2】Squeeze-and-Excitation Networks
0、摘要卷积神经网络建立在卷积运算的基础上,通过融合局部感受野内的空间信息和通道信息来提取信息特征。为了提高网络的表示能力,许多现有的工作已经显示出增强空间编码的好处。在这项工作中,我们专注于通道,并提出了一种新颖的架构单元,我们称之为“Squeeze-and-Excitation”(SE)块,通过显式地建模通道之间的相互依赖关系,自适应地重新校准通道式的特征响应。通过将这些块堆叠在一起,我们证明了我们可以构建SENet架构,在具有挑战性的数据集中可以进行泛化地非常好。关键的是,我们发现SE块以微小的计算原创 2020-12-16 23:24:09 · 1482 阅读 · 1 评论 -
【文献阅读与想法笔记1】Spatial Transformer Networks(STN)
Spatial Transformer Networks(STN)15年NIPS这篇文章通过注意力机制,将原始图片中的空间信息变换到另一个空间中并保留了关键信息。思想非常巧妙,因为卷积神经网络中的池化层(pooling layer)直接用一些max pooling 或者average pooling 的方法,将图片信息压缩,减少运算量提升准确率。作者认为之前pooling的方法太过于暴力,直接将信息合并会导致关键信息无法识别出来,所以提出了一个叫空间转换器(spatial transformer)的原创 2020-12-16 21:26:04 · 1904 阅读 · 0 评论 -
【文献阅读与想法笔记12】GhostNet: More Features from Cheap Operations
文章目录背景以及环境目标任务方法核心网络结构实验结果自己的不成熟想法参考文献背景以及环境1、现有模型又大又慢2、神经网络在移动设备上的应用亟待解决3、解决问题的两个思路模型压缩,比如剪枝、量化、知识蒸馏等高效的网络结构设计,比如MobileNet,ShuffleNet等4、问题:在训练好的深度神经网络中,通常会包含丰富甚至冗余的特征图,以保证对输入数据有全面的理解。如下图所示,在ResNet-50中,将经过第一个残差块处理后的特征图拿出来,三个相似的特征图对示例用相同颜色的框注释。 该对中的一原创 2021-04-18 10:23:30 · 1368 阅读 · 0 评论