深度学习
文章平均质量分 89
SSyangguang
这个作者很懒,什么都没留下…
展开
-
红外与可见光图像融合论文阅读(二)
这两天新看了一篇使用深度学习方法融合红外和可见光图像的模型Infrared and Visible Image Fusion using a Deep Learning Framework,和上次博文是同组,这里分享一下。本文提出一种深度学习方法融合可见光和红外图像的模型,首先将源图像分解为基部和细节部,然后基部用加权平均方法融合,细节部使用深度学习框架提取多层特征,再使用l1-norm和加权平均来产生候选融合细节部,用最大选择策略生成最终的融合细节部,结合该融合细节部和先前的融合基部进行重构即可获原创 2021-07-11 14:26:20 · 2667 阅读 · 3 评论 -
红外与可见光图像融合论文阅读(一)
最近研究红外与可见光图像融合,看到一篇文章RFN-Nest: An end-to-end residual fusion network for infrared and visible images,这里记录一下。Abstract本文提出一种残差融合网络residual fusion network (RFN),用于替换传统的融合方法,同时提出两种损失函数用于训练RFN:细节保留损失函数和特征增强损失函数。模型训练使用了两阶段训练方法,第一阶段训练一个基于nest connection (Nest原创 2021-07-08 16:32:09 · 6058 阅读 · 4 评论 -
Transformer进行底层图像处理任务
最近看了篇使用transformer进行底层图像处理任务的工作Pre-trained image processing transformer,这里分享一下。这篇文章使用ImageNet数据集和transformer结构训练出一个专门用于底层图像分处理任务的预训练模型image processing transformer (IPT),在执行具体任务时只需要微调head和tail就可以处理自己的任务,同时还引入了对比学习用于模型适应不同任务。文中对去噪、超分辨和去雨都进行了实验对比,均获得SOTA效果。原创 2021-07-08 14:30:51 · 2901 阅读 · 1 评论 -
百度飞桨顶会论文复现营DETR解读笔记
百度飞桨顶会论文复现营DETR解读笔记目标检测两个关键子任务:目标分类和目标定位。DETR模型是将目标检测视为集合预测(set prediction)的方式,将训练和预测做到真正的端对端,不需要NMS的后处理,也不需要人为设置anchor。核心是1.set-based的全局Loss,使用二分图匹配生成唯一的预测;2.基于encoder-decoder的transformer。CNN代表图像特征编码的backbone,transformer后面的输出是最终预测的结果集合,transformer原创 2021-06-02 22:29:00 · 3324 阅读 · 3 评论 -
Transformer以及attention机制介绍
Transformer详解1 self-attention机制1.1 self-attention的提出NLP和图像的输入都可以看作是一个vector,输出可能是类别或者数值,如果是一排vector,并且数量可变(例如句子长度不同),此时应该如何处理呢?首先来看对于一个句子,每个词的表示方法有两种:one-hot和word embedding。One-hot方法存在问题是每个词之间的联系被忽略了,word embedding会给每个词一个向量,包含了语义信息,最终一个句子就是一个长度不一的向原创 2021-05-29 17:10:08 · 7937 阅读 · 2 评论 -
百度飞桨顶会论文复现营目标检测综述笔记
参加了百度飞桨顶会论文复现营第二期,这次是目标检测综述的笔记。RCNN到Faster RCNN这几种模型讲的实在太多了,直接从FPN开始吧。FPN:通过将深层特征与浅层特征相融合,并在多层预测,加强了浅层特征图的语义,特征更加鲁棒,定位更加准确。同时提高了检测精度,尤其对于小目标。模型结构图中蓝框越粗语义信息越多,图像分辨率越小,篮框越细上下文信息更强,图像分辨率越高。与Faster RCNN相比,FPN将单一尺度特征图上通过RPN网络提取的region proposal映射到特征金字塔多个原创 2021-05-26 11:06:55 · 530 阅读 · 1 评论 -
Perceiver解读:使用transformer进行多模态分类
Perceiver解读最近在看多模态学习的工作,发现一个使用transformer进行多模态融合的模型很有趣,分享一下,文章是Perceiver: General Perception with Iterative Attention。Perceiver的共享主要包括两点:1.使得transformer的层数可以更深,实验中可以堆叠48层;2.可以在不改变模型结构的基础上处理多种模态的数据,实验中对图像、音频、视频、点云数据都进行了测试,目前研究在图像、点云、音频、视频、音频+视频数据上进行了分类实原创 2021-05-25 16:04:13 · 4939 阅读 · 1 评论 -
【文献翻译】Fully Convolutional Networks for Semantic Segmentation全卷积神经网络
全卷积神经网络摘 要卷积网络是一种强大的视觉模型,它可以产生层次化特征。我们展示了卷积网络这种端到端、像素对像素的训练模型,超过了语义分割的最新技术水平。本文的关键点是构建了“全卷积”神经网络,它是一种输入尺寸任意的端对端神经网络,同时网络有着高效的学习和推理过程。我们定义并详细说明了全卷积神经网络的结构,解释它们在像素位置密集型预测任务中的应用,并得出与先前模型之间的连接。本文将经典的...翻译 2019-08-21 22:17:36 · 2571 阅读 · 0 评论 -
ubuntu16.04+CUDA8.0+cuDNN5.1+opencv2.4.13+Anaconda的caffe编译过程
ubuntu16.04+CUDA8.0+cuDNN5.1+opencv2.4.13+Anaconda的caffe编译过程原创 2017-09-09 11:22:28 · 408 阅读 · 0 评论 -
win10下vs2013+CUDA8.0+cuDNN8.0的caffe编译过程
win10下vs2013+CUDA8.0+cuDNN8.0的caffe编译过程原创 2017-09-09 23:02:26 · 4305 阅读 · 0 评论