CVPR22 |CMT:CNN和Transformer的高效结合(开源) 作者丨王云鹤@知乎(已授权)来源丨https://zhuanlan.zhihu.com/p/534567826编辑丨极市平台导读到底CNN和Transformer哪个更好?当然是强强联手最好。华为诺亚实验室的研究员提出一种新型视觉网络架构CMT,通过简单的结合传统卷积和Transformer,获得的网络性能优于谷歌提出的EfficientNet,ViT和MSRA的Swi...
Pytorch - 分布式通信原语(附源码) 作者丨颜挺帅@知乎(已授权)来源丨https://zhuanlan.zhihu.com/p/478953028编辑丨极市平台导读本文用通过pytorch中的分布式原语库来介绍每个通信原语的行为表现,主要对point-2-point communication 和collective communication两种通信方式进行介绍,并附有相关代码。前言由于工作需要,最近在...
图神经网络也能用作CV骨干模型,华为诺亚ViG架构媲美CNN、Transformer 来源丨机器之心华为诺亚实验室的研究员发现图神经网络(GNN)也能做视觉骨干网络。将图像表示为图结构,通过简洁高效的适配,提出一种新型视觉网络架构 ViG,表现优于传统的卷积网络和 Transformer。在 ImageNet 图像识别任务,ViG 在相似计算量情况下 Top-1 正确率达 82.1%,高于 ResNet 和 Swin Transformer。论文链接:ht...
首个大众可用PyTorch版AlphaFold2复现,哥大开源OpenFold,star量破千 作者丨小舟来源丨机器之心AlphaFold2 是 2021 年 AI for Science 领域最耀眼的一颗星。现在,有人在 PyTorch 中复现了它,并已在 GitHub 上开源。这一复现在性能上媲美原版 AlphaFold2,且在算力、存储方面的要求对于大众来说更加友好。刚刚,哥伦比亚大学系统生物学助理教授 Mohammed AlQuraishi 在推特上宣布,他...
国内首次!3位清华姚班00后学霸斩获计算机理论顶会最佳学生论文奖 作者丨Joey 好困来源丨新智元【导读】2022年计算机理论顶会STOC正式开幕,来自清华姚班的三位00后学霸斩获最佳学生论文奖。近日,理论计算机科学领域顶级国际会议第54届ACM计算理论年会(STOC 2022)拉开帷幕。清华姚班的三位00后学霸范致远、李嘉图与杨天祺,凭借着「伪随机函数的精确复杂性与计算复杂性理论中自举现象的黑盒自然证明障碍」夺得最佳学生论文奖。从左至...
RepOptimizer: 其实是RepVGG2 点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达作者丨zzk来源丨GiantPandaCV前言在神经网络结构设计中,我们经常会引入一些先验知识,比如ResNet的残差结构。然而我们还是用常规的优化器去训练网络。在本工作中,我们提出将先验信息用于修改梯度数值,称为梯度重参数化,对应的优化器称为RepOptimizer。我们着重关注VGG式的直筒模型,训练得到Rep...
扎克伯格上手演示四款VR头显原型机,Meta透露元宇宙「家底」 来源丨机器之心通过 VR 设备,Meta 探索元宇宙的脚步始终没有停下。今日,Meta CEO 扎克伯格和 AR/VR 部门 Reality Labs 首席科学家 Michael Abrash 在虚拟圆桌会议上展示了他们最新的 VR 头显原型机,共有四款设备,代号分别为 Butterscotch、Starburst、Holocake 2 和 Half Dome。这次展示活...
Shunted Self-Attention | 源于 PvT又高于PvT,解决小目标问题的ViT方法 点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达作者丨ChaucerG来源丨集智书童最近的 Vision Transformer (ViT) 模型在各种计算机视觉任务中都展示了不错的性能,这要归功于其通过Self-Attention对图像块或Token的远程依赖关系进行建模的能力。然而,这些模型通常指定每一层内每个Token特征的相似感受野。这种约束不可避免地限制...
元宇宙大杀器来了!小扎祭出4款VR头显,挑战视觉图灵测试 作者丨拉燕 好困如願来源丨新智元【导读】在元宇宙里,假如技术跟不上,别的都白扯。这不,小扎带着4款头显模型来了。当小扎一口气掏出4台VR模型机的时候,我们就知道,他玩儿真的了。如果说之前搞元宇宙是噱头的话,那当小扎把这些「硬通货」掏出来...咱就只有膜拜的份儿了。从小扎的笑容上看,应该是信心满满。视觉图灵测试:四大挑战,一一攻破距离Meta改名也快一年了,然而大家齐...
计算机视觉中的论文常见单词总结 点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达作者丨仿佛若有光157来源丨CV技术指南前言本文对计算机视觉论文中常出现的单词进行了汇总,对于不具备直接阅读英文文献的读者,可以考虑把这些单词给背了。之前的文章《计算机视觉中的高效阅读论文的方法总结》中提到了如何掌握阅读英文文献的能力,我就是按照这个方法来做的,下面是我在执行过程中记录的单词。差不多在背完这些单词...
对比学习(Contrastive Learning)综述 作者丨光某人@知乎(已授权)来源丨https://zhuanlan.zhihu.com/p/346686467编辑丨极市平台A.引入深度学习的成功往往依赖于海量数据的支持,其中对于数据的标记与否,可以分为监督学习和无监督学习。1. 监督学习:技术相对成熟,但是对海量的数据进行标记需要花费大量的时间和资源。2. 无监督学习:自主发现数据中潜在的结构,节省时间以及硬件资源。2...
打破ViT的实际应用限制!沈春华老师团队提出无需解码器的目标检测器DFFT 作者丨ChaucerG来源丨集智书童编辑丨极市平台导读作者提出了一种完全基于Transformer且无解码器(DFFT)的目标检测器,首次在训练和推理阶段都实现了高效率。DFFT在一系列低资源约束(例如,从 40 到 100 GFLOPs)中实现了更高的准确度和更好的训练推理效率。论文链接:https://arxiv.org/abs/2206.06829ViT正在改变...
Gartner权威报告:鹅厂计算机视觉,世界第二 作者丨好困 桃子来源丨新智元【导读】腾讯的计算机视觉能力首次进入全球Top2的评分排名!Gartner最新发布的2022年度《Magic Quadrant for Cloud AI Developer Services》是业内权威的云计算评估报告之一,评估对象包括亚马逊、微软、谷歌等全球云厂商。在核心产品能力评估中,腾讯的计算机视觉凭借出色的产品服务能力,获得了全球Top...
CVPR2022 | PanopticDepth:深度感知全景分割的统一框架 点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达作者丨简单来源丨CV技术指南前言本文提出了一种基于深度感知的全景分割(DPS)的统一框架,旨在从一幅图像中重建具有实例级语义的三维场景。该框架将动态卷积技术应用于全景分割(PS)和深度预测任务中,以生成特定于实例的内核来预测每个实例的深度和分割掩码。此外,利用实例级深度估计方案,添加了额外的实例级深度线索,以通过...
Geoffrey Hinton 最新访谈:不出五年,我们就会破解大脑的运作机制,但不是通过反向传播... 整理|李梅、黄楠(AI科技评论)编辑|陈彩娴过去十年,AI 在计算机视觉、语音识别、机器翻译、机器人、医学、计算生物学、蛋白质折叠预测等等领域取得了一个又一个突破,而这些突破的背后,均离不开深度学习。那么,深度学习起源于何时何地,又在何时成为最突出的AI方法?最近,UC伯克利教授、深度学习专家Pieter Abbeel在其播客节目《机器人大脑》(Robot Brains...
被PyTorch打爆!谷歌抛弃TensorFlow,押宝JAX 作者丨拉燕如願 好困来源丨新智元【导读】谷歌Meta之争看来还没完!TensorFlow干不过还有JAX,二番战能否战胜PyTorch?很喜欢有些网友的一句话:「这孩子实在不行,咱再要一个吧。」谷歌还真这么干了。养了七年的TensorFlow终于还是被Meta的PyTorch干趴下了,在一定程度上。谷歌眼见不对,赶紧又要了一个——「JAX」,一款全新的机器学习框架。最近...
改进Yolov5 | 用 GSConv+Slim Neck 一步步把 Yolov5 提升到极致!!! 点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达作者丨ChaucerG来源丨集智书童目标检测是计算机视觉中一项艰巨的下游任务。对于车载边缘计算平台,大模型很难达到实时检测的要求。而且,由大量深度可分离卷积层构建的轻量级模型无法达到足够的准确性。因此本文引入了一种新方法 GSConv 来减轻模型的复杂度并保持准确性。GSConv 可以更好地平衡模型的准确性和速度...
轻量级网络如MobileNet还适合继续剪枝操作,进一步压缩模型吗? 作者丨LiteAI@知乎(已授权)来源丨https://www.zhihu.com/question/343562568/answer/2514880247编辑丨极市平台导读分享一篇ICML2022文章,关于实现硬件友好方式压缩网络的新范式,其能在基于MobileNetV2的网络上进行剪枝,且在移动端/边缘端Google Pixel 3/Raspberry Pi 4的性...
一行代码完成模型训练,30倍加速,3毫秒急速识别,超强图像分类算法开源!... 人脸、车辆、人体属性、卡证、交通标识等经典图像识别能力,在我们当前数字化工作及生活中发挥着极其重要的作用。业内也不乏顶尖公司提供的可直接调用的API、SDK,但这些往往面临着定制化场景泛化效果不好、价格昂贵、黑盒可控性低、技术壁垒难以形成多诸多痛点。而今天小编要给大家推荐的是一个完全开源免费的、覆盖人、车、OCR等9大经典识别场景、在CPU上可3毫秒实现急速识别、一行代码...
悼念!旷视首席科学家、旷视研究院院长孙剑博士凌晨逝世,AI痛失大牛 来源:量子位 | 公众号 QbitAI旷视首席科学家、旷视研究院院长孙剑博士,今日凌晨因病不幸离世。孙剑博士1976年10月出生,今年45岁。他曾任微软亚研院首席研究员,此前两次获CVPR最佳论文奖。他最为人所熟知的成就,是带领何恺明等人做出的残差网络ResNet。ResNet在2015年提出之后,拿下过ImageNet冠军,并斩获了CVPR 2016最佳论文奖。孙剑的博...