![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文笔记
文章平均质量分 90
这里是看过的论文笔记
FightingCV
厦门大学 人工智能系 研究生,喜欢分享一些近期学到的知识,希望能和大家一起进步!
展开
-
ECCV2022 Oral | MaskCLIP
本文介绍了作者在语义分割中应用 CLIP 的探索,作为研究预训练视觉语言模型在像素级密集预测任务中的适用性的早期尝试。虽然传统的微调范式无法从 CLIP 中受益,但作者发现 CLIP 的图像编码器已经具备直接作为分割模型工作的能力。由此产生的模型,称为 MaskCLIP,可以很容易地部署在各种语义分割设置上,而无需重新训练。原创 2022-09-06 13:58:21 · 1880 阅读 · 0 评论 -
北航&信工所&美团提出LBDT,基于语言桥接的时空交互来进行准确指向性视频对象分割,性能SOTA!代码开源(CVPR 2022)
如上表所示,本文的方法与以前的最新技术相比取得了显著的性能提升,这表明本文的方法可以获得更健壮的多模态表示,并将所学知识推广到看不见的数据集。具体地说,首先在时间和空间解码器中分别对样本进行上采样并添加多个层次的特征,以获得解码后的特征,在此基础上,利用语言特征通过通道激活过滤出与语言无关的运动和外观信息。大量实验表明,提出的方法在四种流行的RVOS基准上都优于以前的方法,在A2DSentences和J-HMDBSentences上的AP增益分别为6.8%和6.9%,同时消耗的计算开销约为7倍。...转载 2022-07-17 08:46:34 · 148 阅读 · 0 评论 -
兼顾Accuracy和Diversity!用于Image Captioning的变分Transformer模型!
在这项工作中,作者提出了一个由不同设计良好的模块组成的新框架,以确保具有准确语义结构的不同生成。首先,作者给出了IIP和AGMM组以保证精度性能。然后,作者给出了RMRbaseline,以在坚实的精度基础上提高不同生成的质量。大量的实验表明,本文的模型在准确性和多样性方面都实现了同步提升。...原创 2022-07-16 22:07:16 · 459 阅读 · 0 评论 -
Involution(附对Involution的思考):港科大、字节跳动、北大提出“内卷”神经网络算子,在CV三大任务上提点明显
该原创内容首发于GaintPandaCV,转载请获得授权并标明出处【写在前面】在被Transformer结构刷榜之前,CNN一直都是CV任务的标配。卷积有两个基本性质,分别是空间不变性 (spatial-agnostic)和通道特异性 (channel-specific)。空间不变性使得卷积能够在所有位置共享参数,并充分利用视觉特征的“平移等变性”。通道特异性使得卷积能够充分建模通道之间的关系,提高模型的学习能力。但是任何事物其实都是有两面性的,这两个性质在具有优点的同时,也同样存在缺点(缺点会在Mo原创 2021-07-12 10:21:26 · 836 阅读 · 0 评论 -
OutLook Attention:具有局部信息感知能力的ViT
该原创内容首发于GaintPandaCV,转载请获得授权并标明出处【写在前面】近段时间,Transformer-based模型在Visual Recognition领域取得了非常大的进展。但是如果不借助额外的训练数据,Transformer-based模型离CNN-based模型还是具有一定的差距(NFNet-F5(CNN-based):86.8%,CaiT(Transformer-based):86.5%)。作者认为,这是因为token embedding并没有进行细粒度特征表示,因此本文提出了一种原创 2021-07-09 10:21:06 · 1275 阅读 · 0 评论 -
思考NLP和CV中的Local和Global建模
该原创内容首发于GaintPandaCV,转载请获得授权并标明出处【写在前面】CNN的感受野受卷积核大小的限制,导致了CNN实际上是一种Local的信息建模;而Self-Attention(SA)是将每个位置和所有位置计算attention weight,考虑了每个点之间的联系,因此SA是一种Global的建模。起初,CNN大多用在CV领域中,而SA大多用在NLP领域中。但是随着SA和CNN各自优缺点的显现(如下表所示),越来越多的文章对这两个结构进行了混合的应用,使得模型不仅能够捕获全局的信息,还能原创 2021-07-09 10:13:16 · 407 阅读 · 0 评论 -
苹果第一篇AI论文-CVPR 2017 Best Paper-论文笔记
视频链接:https://www.bilibili.com/video/BV1yz4y1X7Jd/1、看abstract时候的问题(看其他部分时候的回答)1.adversarial network和GANs有什么区别?论文所做的工作和GANs的区别在哪里?原始GANs生成的图片和真实图片差距比较大,因此用于训练的结果会不太好。而本文的方法更像是一个Refiner,根据unllabeled real data,去给synthetic data加细节,是的synthetic data...原创 2020-07-19 15:28:48 · 274 阅读 · 0 评论 -
目标检测经典之作-Fast RCNN论文解读
视频链接:https://www.bilibili.com/video/BV1n54y1S71L/1、看abstract时候的问题(看其他部分时候的回答)1.1.Two-stage算法的主要难点?第一是如何去生成proposals;第二是前面生成的propasal都是粗略的,因此对这些proposal进行调整。1.2.为什么Fast RCNN的论文里用r和c代表top和left?1.3.文中说网络的input是一张完整的图片和region of intere...原创 2020-07-19 15:27:25 · 223 阅读 · 0 评论 -
何恺明大神巨作:Faster R-CNN 论文笔记
视频链接:https://www.bilibili.com/video/BV1j5411e7aH/何恺明大神奠基Two-stage目标检测算法的一篇巨作。1、看abstract时候的问题(看其他部分时候的回答)1.什么是region proposal?相比于YOLO这种one-stage(速度快)的检测算法,two-stage算法(准确率高)就是多出了region proposal的过程。two-stage目标检测算法的思想主要将检测过程分为两步:第一步是在图片中寻找“可能存在物..原创 2020-07-19 15:25:07 · 441 阅读 · 0 评论