Transformer
文章平均质量分 94
‘Atlas’
人工智能从业者,崇尚技术,享受学习的过程。主要研究方向:跨模态、文生图、虚拟试衣、目标检测、分割、关键点检测等
展开
-
TopNet-(CVPR2023)前背景图像合成
TopNet,CVPR2023,通过transformer结合目标特征及局部背景特征,预测目标尺度及放置位置,超越现有SOTA方法,并且在真实图片具有泛化性。原创 2023-11-24 10:50:00 · 1245 阅读 · 0 评论 -
ONE-PEACE论文解读
达摩出品,ONE-PEACE作为一种易扩展的跨模态泛化表征模型,可对齐和集成视觉、语音、语言模态表征,实验结果表明,在多个任务达到前沿效果:图像分类、语义分割、音频-文本检索、音频问答、图文检索、visual grounding。同时具有一定zero-shot检索能力,即使训练集数据模态非成对,也能够对齐模态。原创 2023-07-22 23:04:38 · 583 阅读 · 0 评论 -
文本识别-SVTR论文解读
SVTR 基于transformer文本识别算法,SVTR-L在英文及中文识别上速度快的同时accuracy高。原创 2022-06-25 12:41:16 · 3702 阅读 · 0 评论 -
Swin Transformer V2论文解读
Swin v2优化内存,支持训练大分辨率原创 2022-02-18 23:37:36 · 5235 阅读 · 0 评论 -
Swin Transformer论文解读
swin transformer性能不错backbone,在分类、检测、分割任务上取得SOTA。原创 2022-02-14 16:49:59 · 3649 阅读 · 0 评论 -
Transformer结构解读-Attention is all you need
文章目录创新点算法EncoderMSADecoderFFNPosition Embedding论文:《Attention is all you need》代码:https://github.com/tensorflow/tensor2tensor创新点作者提出一种新的简单网络结构,Transformer,其完全基于注意力机制,摒弃CNN与RNN。我们的模型在 WMT 2014 英德翻译任务上达到了 28.4 BLEU,比现有的最佳结果提高了 2 BLEU 以上。算法Transformer结构如原创 2022-02-13 14:20:38 · 1249 阅读 · 0 评论 -
ViT论文解读
文章目录创新点算法class token位置编码实验与SOTA比较结论论文:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》代码:https://github.com/google-research/vision_transformer创新点作者表明在视觉任务上,CNN并不是必须的,Transformer也可以很好的执行分类任务;与CNN SOTA方法相比,ViT使用更少训练资源,取得不错结果;原创 2022-02-12 17:01:39 · 2885 阅读 · 0 评论 -
MAE论文解读
文章目录创新点算法原理MaskingMAE encoderMAE decoder重构目标实验Baseline: ViT-Large.消融实验Mask token自监督方法比较迁移至目标检测任务及语义分割任务结论论文:《Masked Autoencoders Are Scalable Vision Learners》代码:https://github.com/facebookresearch/mae创新点本文说明掩码自编码器(MAE)在无监督视觉领域应用可行性;MAE有两个重要设计:1、非对称编、原创 2022-02-11 16:12:17 · 2924 阅读 · 0 评论