![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AI
文章平均质量分 89
FightingCV
厦门大学 人工智能系 研究生,喜欢分享一些近期学到的知识,希望能和大家一起进步!
展开
-
经典回顾 | 一种跨模态多媒体检索的新方法
最近闲来无事,为大家整理了深度学习、多模态、计算机视觉相关的必读论文和视频教程,已开源到Github上,欢迎大家使用:https://github.com/xmu-xiaoma666/FightingCV-Course。项目会长期保持更新,也欢迎大家联系笔者,加入更多教程,促进大家学习。项目在线笔记见:https://www.wolai.com/2ZvDcyvLF2FrHjnujeJzmK,更新会更加及时。多媒体文档的文本和图像组件的联合建模问题被广泛研究。文本组件表示为来自隐藏主题模型的样本,通过潜在 D原创 2022-10-03 21:32:30 · 1232 阅读 · 0 评论 -
IJCAI 2022|边界引导的伪装目标检测模型BGNet
本篇分享IJCAI 2022 论文『Boundary-Guided Camouflaged Object Detection』,内大Ð&石大&UAE提出边界引导的伪装目标检测模型BGNet,性能SOTA!代码已开源!详细信息如下:论文地址:https://arxiv.org/abs/2207.00794代码地址:https://github.com/thograce/BGNet 01&nbs原创 2022-08-03 22:17:14 · 2938 阅读 · 0 评论 -
全尺度表示的上下文非局部对齐
【写在前面】基于文本的人物搜索旨在使用人物的描述性句子在图像库中检索目标人物。这是一个非常具有挑战性的问题,因为模态差异使得有效提取鉴别特征更加困难。此外,行人图像和描述的类间方差很小。因此,需要综合信息来在所有尺度上对齐视觉和文本线索。大多数现有方法仅考虑单个尺度(例如仅全局尺度或仅部分尺度)内图像和文本之间的局部对齐,或仅在每个尺度上单独构建对齐。为了解决这个问题,作者提出了一种能够跨所有尺度自适应对齐图像和文本特征的方法,称为NAFS(即全尺度表示的非局部对齐)。首先,提出了一种新的阶梯网络结构来提取原创 2022-08-03 19:52:31 · 466 阅读 · 1 评论 -
华科提出首个用于伪装实例分割的一阶段框架OSFormer
本篇分享 ECCV 2022 论文『OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers』,华科Ð提出首个用于伪装实例分割的一阶段Transformer的框架OSFormer!代码已开源!详细信息如下:论文地址:https://arxiv.org/abs/2207.02255[1]代码地址:https://github.com/PJLallen/OSFormer[2] &nbs原创 2022-08-02 12:53:32 · 661 阅读 · 0 评论 -
神经网络也能像人类利用外围视觉一样观察图像
本篇分享论文『Peripheral Vision Transformer』,POSTECH&MSRA&中科大提出PerViT,让神经网络也能关注图片中的重点信息!详细信息如下:论文地址:https://arxiv.org/abs/2206.06801项目地址:http://cvlab.postech.ac.kr/research/PerViT/ (尚未开源) &nb原创 2022-08-02 12:46:17 · 357 阅读 · 0 评论 -
11%的参数就能优于Swin,微软提出快速预训练蒸馏方法TinyViT
【写在前面】视觉Transformer(VIT)由于其卓越的建模能力,近年来在计算机视觉领域引起了极大的关注。然而,大多数流行的VIT模型都受到大量参数的限制,限制了它们在资源有限的设备上的适用性。为了缓解这一问题,作者提出了TinyViT,这是一种新的微小而高效的小视觉Transformer家族,使用本文提出的快速蒸馏框架在大规模数据集上进行预训练。其核心思想是将知识从大型预训练的模型转移到小型模型,同时使小型模型能够从大量的预训练数据中获得红利。更具体地说,作者在预训练期间应用蒸馏来进行知识转移。大型教原创 2022-08-01 09:55:14 · 596 阅读 · 0 评论 -
CVPR 2022 |节省70%的显存,训练速度提高2倍
本篇分享 CVPR 2022 论文『Online Convolutional Re-parameterization』,浙大&阿里提出在线卷积重新参数化OREPA,节省70%的显存!训练速度提高2倍!代码已开源!详细信息如下:论文地址:https://arxiv.org/abs/2204.00826代码地址:https://github.com/JUGGHM/OREPA_CVPR2022 01 &am原创 2022-08-01 09:24:03 · 307 阅读 · 0 评论 -
MaskDistill-不需要标注数据的语义分割
本篇分享论文『Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation』,苏黎世联邦理工学院&鲁汶大学提出MaskDistill,用Transformer来进行无监督语义分割,在PASCAL VOC上SOTA!代码已开源!详细信息如下:论文地址:https://arxiv.org/abs/2206.06363代码地址:https://github.com/wvangansbeke/MaskDis原创 2022-07-28 16:55:12 · 449 阅读 · 0 评论 -
哥廷根大学提出CLIPSeg,能同时作三个分割任务的模型
本篇分享 CVPR 2022 论文『Image Segmentation Using Text and Image Prompts』,哥廷根大学提出了一个使用文本和图像prompt,能同时作三个分割任务的模型CLIPSeg,榨干CLIP的能力!详细信息如下:论文地址:https://arxiv.org/abs/2112.10003代码地址:https://github.com/timojl/clipseg 01&nbs原创 2022-07-28 13:22:05 · 1719 阅读 · 0 评论 -
面向小白的深度学习代码库,一行代码实现30+中attention机制。
Hello,大家好,我是小马🚀🚀🚀,最近创建了一个深度学习代码库,欢迎大家来玩呀!代码库地址是https://github.com/xmu-xiaoma666/External-Attention-pytorch,目前实现了将近40个深度学习的常见算法!For 小白(Like Me):最近在读论文的时候会发现一个问题,有时候论文核心思想非常简单,核心代码可能也就十几行。但是打开作者release的源码时,却发现提出的模块嵌入到分类、检测、分割等任务框架中,导致代码比较冗余,对于特定任务框架不熟悉的我,很难找原创 2022-07-26 11:14:25 · 5254 阅读 · 2 评论 -
发顶会顶刊论文,你应该这样写作
加入交流群,请添加小助手wx:FightngCV666来源:https://github.com/MLNLP-World/Paper-Writing-Tips很多初学者同学在投稿的时候经常会出现一些共有的小错误,为了节省大家的时间和帮助大家能够尽快的定位一些小的问题。本项目总结了我们在自己投稿过程中的经验和一些身边老师同学的投稿经验,希望能对大家有所帮助,由于我们的水平有限,如有疏漏,还望谅解。谢谢大家。本项目的特色:写前必看:包含一些常见的错误,每个错误均配有例子,可以在动手写论文之前快速浏览。终稿必查:原创 2022-07-26 11:09:01 · 652 阅读 · 0 评论 -
MSRA提出学习实例和分布式视觉表示的极端掩蔽模型ExtreMA
本篇分享论文『Extreme Masking for Learning Instance and Distributed Visual Representations』,MSRA&CMU提出学习实例和分布式视觉表示的极端掩蔽模型ExtreMA,图像重建效果甚至由于MAE!详细信息如下:论文地址:https://arxiv.org/abs/2206.04667代码地址:尚未开源 01  原创 2022-07-24 13:22:54 · 268 阅读 · 0 评论 -
原来何恺明提出的MAE还是一种数据增强
本篇分享论文『Masked Autoencoders are Robust Data Augmentors』,上交&华为基于MAE提出掩蔽重建数据增强,优于CutMix、Cutout 和 Mixup!代码即将开源!详细信息如下:论文地址:https://arxiv.org/abs/2206.04846代码地址:https://github.com/haohang96/MRA 01 原创 2022-07-24 12:05:13 · 465 阅读 · 0 评论