![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CV
文章平均质量分 87
深兰深延AI
这个作者很懒,什么都没留下…
展开
-
目标检测 - 主流算法介绍 - 从RCNN到DETR
目标检测是计算机视觉的一个非常重要的核心方向,它的主要任务目标定位和目标分类。在深度学习介入该领域之前,传统的目标检测思路包括区域选择、手动特征提取、分类器分类。由于手动提取特征的方法往往很难满足目标的多样化特征,传统方法始终没能很好的解决目标检测问题。深度学习兴起之后,神经网络可以从大量数据中自动学出强大的特征提取和拟合能力,因而涌现出很多性能优良的目标检测算法。基于深度学习的目标检测方法大致可分为三类——双阶段目标检测、单阶段目标检测、基于transformer的目标检测,本文将分别介绍这三原创 2022-03-18 17:33:29 · 7140 阅读 · 0 评论 -
【CVPR2022】MPViT :用于密集预测的多路径视觉变换器
论文链接:https://arxiv.org/abs/2112.11010代码链接:https: //git.io/MPViTIntroduction 在这项工作中,作者以不同于现有Transformer的视角,探索多尺度path embedding与multi-path结构,提出了Multi-path Vision Transformer(MPViT)。 通过使用 overlapping convolutional patch embedding,MPViT同时嵌入相同大小的p原创 2022-03-11 17:12:49 · 4084 阅读 · 0 评论 -
分享 | M4C多模态transformer对TextVQA进行迭代式答案预测
最近的工作探索了TextVQA任务,该任务需要阅读和理解图像中的文字来回答问题。然而,现有的TextVQA的方法大多是基于两对模态之间的自定义成对融合机制,并且通过将TextVQA作为一个分类任务来限制在一个单一的预测步。在这项工作中,我们为TextVQA任务提出了一个新的模型,该模型基于一个多模态transformer架构,并伴随着图像中文本的丰富表示。原文:Iterative Answer Prediction with Pointer-Augmented Multimodal Transfor原创 2022-03-10 18:30:25 · 866 阅读 · 0 评论 -
【论文笔记】VAN,干掉了CNN和ViT的最新架构
在本文中,提出了一种新的大核注意力large kernal attention(LKA)模型, LKA吸收了卷积和自我注意的优点,包括局部结构信息、长程依赖性和适应性。同时,避免了忽略在通道维度上的适应性等缺点。作者进一步介绍了一种基于LKA的新型神经网络,即视觉注意网络(VAN)。VAN在图像分类、目标检测、实例分割、语义分割方面,都”远远超过了”SOTA的CNN和视觉transformer。原文地址:https://arxiv.org/abs/2202.09741相关工作CNN学原创 2022-03-09 18:09:34 · 1500 阅读 · 1 评论 -
分享 | 实时风格转换和超分辨率的感知损失
网络模型组成部分网络模型总体分为两部分:Image Transform Net和VGG-16 Image Transform Net是参数W待训练的网络 VGG-16是已经预训练好参数的网络 工作原理(1) 输入为 : 原始图像x 风格目标图y_s 内容目标图y_c (2) Image Transform Net作用: 将原始图像x经过Image Transform Net得到输出图像 映射关系为: y^ = Fw(x)原创 2022-03-04 18:48:01 · 476 阅读 · 0 评论 -
WACV 2021| FPN中用于微小目标检测的有效融合因子
基于FPN的探测器在一般目标检测方面取得了显著的进展,如MS COCO和PASCAL VOC。然而,这些检测器在某些应用场景下会失败,例如,微小物体检测。本文认为,FPN中相邻层之间的自顶向下连接为微小目标检测带来了双面影响,而不仅仅是正面影响。我们提出了一个新的概念,fusion factor,以控制信息从深层传递给浅层,以适应FPN的微小目标检测。通过一系列的实验和分析,我们探讨了如何通过统计的方法来确定某一特定数据集融合因子的有效值。该估计依赖于分布在每一层的对象数量。在微小物体检测数据集,如Ti原创 2022-03-02 19:01:53 · 2706 阅读 · 0 评论 -
论文推荐:ReLICv2 ,新的自监督学习能否在ResNet 上超越监督学习?
自监督 ResNets 能否在 ImageNet 上没有标签的情况下超越监督学习?在本文中将介绍最近一篇推动自监督学习状态向前发展的论文,该论文由 DeepMind 发表,绰号为 ReLICv2。Tomasev 等人的论文“Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?”。提出了对 ReLIC 论文的技术的改进,该论文名为“原创 2022-03-01 16:57:16 · 269 阅读 · 0 评论 -
分享 | 防御物理上可实现的图像分类攻击
作者研究了保护用于图像分类的深度神经网络方法免受物理可实现攻击的问题。首先,证明了可学习的鲁棒模型的两种最具可扩展性和最有效的方法(PGD 攻击的对抗训练和随机平滑),对三种最引人注目的物理攻击的效果非常有限。论文信息原文链接:https://arxiv.org/abs/1909.09552原文开源代码:https://github.com/tongwu2020/phattacks解决的问题接下来,作者提出了一种新的抽象对抗模型,矩形遮挡攻击(rectangular occlusion.原创 2022-02-28 17:46:42 · 1222 阅读 · 0 评论 -
Cascade EF-GAN: 局部聚焦渐进式面部表情编辑
目前面部表情编辑存在的问题:生成性对抗网络(GAN)的最新进展表明,面部表情编辑有了显著的改进。然而,当前的方法仍然容易在表达密集型区域周围产生伪影和模糊,并且在处理大间隙表达转换(例如从愤怒到大笑的转换)时,经常引入不希望的重叠伪影。本文提出的方案(1)为了解决这些局限性,我们提出了Cascade Expression Focal GAN(Cascade EF-GAN),这是一种新的网络,可以使用局部表情焦点进行渐进式面部表情编辑。局部聚焦的引入使Cascade EF-GAN能够更好地保留眼睛、鼻原创 2022-02-25 18:05:11 · 880 阅读 · 2 评论 -
Self-Attention 加速方法一览:ISSA、CCNet、CGNL、Linformer
Attention 机制最早在NLP 领域中被提出,基于attention 的transformer结构近年在NLP的各项任务上大放异彩。在视觉任务中,attention也收到了很多的关注,比较有名的方法包括Non-Local Network,能够在时空volume中对全局的关系进行建模,获得了很好的效果。但视觉任务中的self-attention模块通常需要进行大矩阵的矩阵乘法,显存占用大且比较耗时。所以近年有许多优化self-attention模块速度的方法,这篇笔记主要讨论几篇相关方法,有错误之处欢迎原创 2022-02-23 16:30:19 · 932 阅读 · 0 评论 -
逆向思维:卡通照片真人化
之前PaddleGAN的趣味应用如雨后春笋般地出现,非常多的项目都是xxx动漫化。当时就有一个很普通的想法为什么大家都会去搞动漫化,这很可能是因为二次元文化的原因,又或者是动漫化的应用、商业价值。就突然蹦出一个想法,为什么没人弄动漫真人化呢,然后我就去项目搜了,结果确实貌似没有人做这个项目。刚开始我以为我这个想法实现起来很难,到后面和大神们讨论后,其实觉得实现原理也很简单,就是把人像动漫化的数据集里面的标签互换。比如人像卡通化,就是A to B(A是真人,B是动漫,B是标签)。那么此次这个项目卡通人像化原创 2022-02-22 17:26:08 · 974 阅读 · 1 评论 -
AAAI2022-ShiftVIT: When Shift Operation Meets Vision Transformer
论文:【AAAI2022】When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism代码:https://link.zhihu.com/?target=https%3A//github.com/microsoft/SPACHB站作者讲解视频:https://www.bilibili.com/video/BV1a3411h7su研究动机这个工作是使用一..原创 2022-02-14 19:01:12 · 457 阅读 · 0 评论 -
跨模态检索 | Visual Representation Learning
这篇论文最近被TCSVT接收,其主要任务为视频文本检索,并主要针对于视频特征表示学习。由于人们阅读时,通常会首先阅读概述,然后在进行精读,受这一阅读策略的启发,本文提出了一种视频特征学习方法(RIVRL)来表示视频, 它包含两个分支:一个预览分支和一个精读分支,顾名思义,预览分支用来捕捉视频的概述信息,精读分支用来捕捉视频中更加深层次的信息。然而在该任务中,如图1所示,类似的视频特征学习的多分支范式往往都是独立的,然而作者认为,尽管这种方法取得了很好的性能,但作者认为这样的独立多分支范式是次优的。根原创 2022-02-14 18:01:34 · 1598 阅读 · 0 评论 -
分享|Jointly Pre-Training Transformers on Unpaired Images and Text
最近本专栏都在介绍多模态机器翻译,而近期多模态联合表示的工作很火热,笔者也准备和大家一起学习学习最新期的几篇论文。今天讲的这篇Google的工作利用知识蒸馏,把BERT和ViT的能力蒸馏到一个新模型上,使得这个新模型能够同时表征文本和图片。论文信息名称:Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text作者:Qing Li, Boqing Gong,原创 2022-02-11 18:35:00 · 162 阅读 · 0 评论 -
分享 | 引导语言图像预训练,实现统一的视觉语言理解和生成
视觉语言预训练(VLP)已经提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型只在基于理解的任务或基于生成的任务中表现出色。此外,性能的提高在很大程度上是通过扩大从网络上收集的有噪声的图像-文本对的数据集实现的,而这是一个次优的监督来源。在本文中,我们提出了BLIP,一个新的VLP框架,它可以灵活地兼顾视觉-语言理解和生成任务。BLIP通过自助抽样法有效地利用了带噪声的网络数据,其中一个描述生成器生成了合成的图像描述,一个过滤器去除了带噪声的描述。我们在多个视觉语言任务上取得了最先进的结果.原创 2022-02-10 18:54:10 · 2046 阅读 · 0 评论 -
[NIPS2021]MLP-Mixer: An all-MLP Architecture for Vision
卷积神经网络(CNN)是计算机视觉的首选模型。最近,基于注意力的网络(例如ViT)也变得很流行。在本文中,我们表明,尽管卷积和注意力都足以获得良好的性能,但它们都不是必需的。文章介绍了MLP-Mixer,这是一种仅基于多层感知机(MLP)的体系结构。MLP-Mixer包含两种类型的层:一种具有独立应用于图像patches的MLP(即“混合”每个位置特征),另一种具有跨patches应用的MLP(即“混合”空间信息)。论文地址:https://arxiv.org/pdf/2105.01601.pdf..原创 2022-02-10 14:19:07 · 1766 阅读 · 0 评论 -
技术 | 图像动作驱动-First Order Motion Model 解读
图像动作驱动-First Order Motion Model 解读原创 2022-02-09 18:35:20 · 3597 阅读 · 0 评论 -
盘点 | 北京冬奥会上的那些 AI 黑科技,深延科技全都有
从“同一个梦想”到“一起向未来”双奥之城北京即将在这个冬天再次迎来奥运火种然而,同14年前大不相同2022年的中国已然是全球新一波人工智能浪潮的领导者自动驾驶、自然语言处理NLP、机器视觉CV、深度学习DL、数据挖掘DM一系列眼花缭乱的人工智能概念都将在为期两周的冰雪盛事大显神通如何才能紧跟时代靠自己玩转北京冬奥中的人工智能?立刻下滑,保证不虚此行!01 北京冬奥——一次真正的人工智能奥运作为人工智能应用大国,中国AI产业向2022北京冬奥赛事运营提供了全方位的技原创 2022-01-13 19:20:24 · 1555 阅读 · 0 评论 -
中央农村工作会议释放重要信号,AI 技术助力农业的十种路径,未来可期
中央农村工作会议于2021年12月25至26日在北京召开。会议分析当前“三农”工作面临的形势任务,研究部署2022年“三农”工作,释放出两大重要信号:初级产品供给将更有保障;县域内城乡融合发展提速。农业话题常谈常新。当前,农业的快速发展必定离不开科技的大力支持。在科技的赋能下,中国农业发展正经历由传统农业向数字农业的转型新阶段,发展数字农业是18亿亩农田的精细化管理需求,也是乡村振兴战略实施的基础。各大互联网企业及产业龙头持续重仓农业,当智慧农业的技术手段开始走向规模化应用,是时候将视角聚焦到智慧农业这原创 2022-01-12 19:08:13 · 271 阅读 · 0 评论 -
分享 | 用于视图合成的神经辐射场技术
2020和2021年,最火的计算机视觉技术非Transformer莫属。而除Transformer之外,最受欢迎也最有趣的技术我想应该是ECCV 2020的神经辐射场 (Neural Radiance Field, NERF) ,其核心点在于非显式地将一个复杂的静态场景用一个神经网络来建模。在网络训练完成后,可以从任意角度渲染出清晰的场景图片。NeRF惊艳的效果吸引了大量研究者的关注,在20年3月挂上arXiv后,后续已经有大量的工作跟进,在速度、效果、动态场景等多个不同的角度对NeRF进行了改进。作为原创 2022-01-11 18:23:31 · 2551 阅读 · 2 评论 -
分享 | 特征提取 (Features)
为何要进行特征提取?经过之前的学习,我们已经可以将一张图片中物体的边缘提取出来了。但即使是我们用 Canny 提取出来的物体边界图依然存在很多对于识别物体来说并不重要的线条。这些线条反而会影响到我们对物体的识别。因此我们有必要将有利于我们识别物体的这些特征提取出来。RANSAC 比例算法动机RANdom SAmple Consensus (RANSAC) 直译过来就是随机样本共识,是一种利用比例来确定特征的算法。它相比如边缘检测来说,可以在物体较多的情况下保持高效和准确。但是在噪声较大的原创 2021-12-30 18:27:14 · 2428 阅读 · 0 评论