Transformer
文章平均质量分 88
以各种transformer骨干网络为基础,分析学习最近经典基于transformer的图像分类、目标检测、语义分割等文章。所以内容包含论文和代码。
zy_destiny
一名天天向上的程序媛
展开
-
【iRBlock-iRMBlock】Inverted Residual Block和Inverted Residual Mobile Block
轻量化模块倒残差模块和倒残差移动模块详解,含python代码原创 2024-02-23 13:45:45 · 980 阅读 · 3 评论 -
Transformer到底为何这么牛
深度学习自出生以来就不被看好,随着计算机的发展和硬件条件的提升,这种大规模计算的深度学习才重新焕发光芒。但是我们都知道深度学习,甚至是深度强化学习的效率太慢了,人类只需要重复学习几次,甚至几十次就可以学会的东西,深度学习需要成千上万次,不得不感叹深度学习算法的学习真的太慢了。深度学习的学习效率问题是由于其本身算法计算机制导致的,最初的深度学习算法都是靠梯度下降来完成映射的,在学习过程中,为了避免学了新的,忘记旧的。原创 2023-03-15 17:58:46 · 3427 阅读 · 0 评论 -
【mmdeploy】mmseg转ONNX/TensorRT,附推理代码
使用mmdeploy工具将 OpenMMLab 下的算法部署到onnx格式和TensorRT上。原创 2023-01-17 18:32:20 · 2674 阅读 · 11 评论 -
【SegNeXt】语义分割中对卷积注意力设计的反思
论文提出一种简单的卷积神经网络结构用于语义分割任务。最近基于transformer机制的模型由于其自注意力机制在编码空间信息上的效率主导了语义分割领域。本文中,我们发现卷积注意力比transform中的自注意力更能有效的编码上下文信息,通过重新审视成功者在分割模型中所拥有的特征,我们发现了几个导致分割模型性能改进的关键组件。这促使我们设计一种使用廉价卷积运算的新型卷积注意力网络。原创 2022-12-27 15:45:39 · 1344 阅读 · 0 评论 -
【stacking】超详细模型融合方法(附图附代码)
看到kaggle上的大佬经常用到策略来提分,所以今天就来一探究竟。包括投票法、平均法、权重法、stacking法。原创 2022-11-02 11:19:16 · 3909 阅读 · 0 评论 -
【mmsegmentation】踩坑指南----config中的loss_weight调整
最近在试mmseg项目中各种模型的参数调整实验,关注到一个class_weight参数,按照官网说明,这个参数是可以调节样本不平衡带来的拟合问题,提升算法精度的一个手段。即可根据样本分布来合理调整类别损失权重,样本数量越少,就增加其class_weight权重,反之样本量越大,其class_weight权重就随之减少,但是不能增加或减少的太多,会导致模型训练不收敛。可以看到,默认的numclass=19,即表示19类中每类样本的class_weight贡献值是相等的。整理不易,欢迎一键三连!原创 2022-11-01 11:35:54 · 1792 阅读 · 12 评论 -
【Mask2Former】Masked-attention Mask Transformer for Universal Image Segmentation
论文地址:http://arxiv.org/abs/2112.01527代码地址:Mask2Former1.背景图像分割研究的是像素的分组问题。用于对像素进行分组的不同语义导致了不同类型的分割任务,例如全景分割、实例分割和语义分割。虽然这些任务仅在语义上有所不同,但是当前的方法为每个任务开发了专门的架构。基于逐像素分类的全卷积网络(FCNs) 用于语义分割,尽管该网络已经推进了每个单独的任务,但是它们缺乏推广到其他任务的灵活性。例如,基于FCN的体系结构在实例分割方面存在困难,导致了不同体...原创 2022-10-18 17:24:42 · 2744 阅读 · 0 评论 -
【MaskFormer】Per-Pixel Classification is Not All You Needfor Semantic Segmentation
论文:https://arxiv.org/pdf/2107.06278.pdf代码:MaskFormer1.背景图像语义分割问题一直以来都被当做一个像素级分类问题解决的。我们发现,把语义分割看成一个mask classification问题不仅更自然的把语义级分割(semantic-level segmentation)和实例级分割(instance-level segmentation)联系在了一起,并且在语义分割上取得了比像素级分类方法更好的方法。我们提出的MaskFormer模型在语义原创 2021-12-17 10:43:39 · 3046 阅读 · 1 评论 -
【TNT】Transformer in Transformer
这是今年中科院计算机科学实验室、华为和澳门大学联合写的一篇文章,题目非常硬核,TNT,像是多么爆炸性的产出。话不多说,直接开始学习吧。论文:https://arxiv.org/pdf/2103.00112.pdf代码:https://github.com/huawei-noah/CV-Backbones1.背景Transformer是基于自注意机制的一种神经网络,他能表示不同特征图之间的关系。Transformer 作为一种新型的神经架构,通过注意力机制将输入编码为强大的特征表征,通常,Tr原创 2021-12-16 15:48:25 · 550 阅读 · 0 评论 -
【MeatFormer】MetaFormer is Actually What You Need for Vision
论文:https://arxiv.org/abs/2111.11418代码:https://github.com/sail-sg/poolformer首先,看到这个文章的名字,就知道它肯定跟attention和transform有关,经典文章:attention is all your need在脑海中飘过。。。1.论文主要贡献本文主要有两个创贡献,一个式提出了一种MeatFormer结构,另一个式成功将MeatFormer应用于图像分类、目标检测、语义分割等任务中。2.网络结构..原创 2021-12-09 11:10:03 · 393 阅读 · 0 评论 -
【Swin Transformer】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
文章:代码:1.Swin Transformer VS ViT这个图表达了swin transformer和ViT的区别,不知道ViT的可以去我之前的博客里去了解,这里就不多赘述,swin transformer的主要区别就是对构建了由切片的图像拼接组成的分层特征图,且对输入图像大小具有线性计算复杂度,在每个局部框内(红色区域)计算自注意指数。【ViT】链接:https://blog.csdn.net/qq_38308388/article/details/121495709htt..原创 2021-12-04 17:43:40 · 4060 阅读 · 0 评论 -
【ViT】AN I MAGE IS WORTH 16 X 16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
2021年风最大的当属Transformer了,接下来就出一个transformer的专栏,记录2021年以来最新的transformer网络。首先就从谷歌大脑实验室的ViT网络开始吧!点击下载论文点击下载代码原创 2021-11-25 14:32:25 · 2278 阅读 · 0 评论