CV_机器学习社区的博客-CSDN博客

CV

关注

文章平均质量分 89

计算机视觉

关注数：文章数：110 文章阅读量：217617 文章收藏量：1593

作者: 机器学习社区

这个作者很懒，什么都没留下…

展开

专栏收录文章

面了英伟达算法岗，被疯狂拷打。。。

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。这两天面试群太热闹了，2025届忙着暑期实习和秋招，2024届的小伙伴已陆续分享了经验和心得，准备奔赴新的城市和新的生活了。

原创 2024-06-30 18:01:05 · 2136 阅读 · 0 评论
字节跳动算法岗面试，问的贼细！

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。这里又整理了字节跳动的最新面试题，希望对你有所帮助。介绍SAM和变体LoRA和QLoRA微调技术介绍YOLOv9和YOLOv10Negative prompt 怎么做的？常见的分词器(Tokenizer)方法Stable Diffusion的结构与原理。

原创 2024-06-11 21:51:37 · 1978 阅读 · 0 评论
一文搞懂 Transformer 中的三种注意力机制

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。《Attention is All You Need》3.2.3 注意力机制的应用Transformer使用多头注意力机制的三种不同方式如下：在“编码器-解码器注意力”层中，查询来自前一层解码器，而记忆键和值则来自编码器的输出。这使得解码器中的每个位置都能关注输入序列中的所有位置。

原创 2024-05-16 23:42:22 · 5729 阅读 · 0 评论
一文搞懂扩散模型Diffusion Models

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。本文将从扩散模型的本质_、扩散模型的原理、扩散模型的应用_三个方面，带您一文搞懂扩散模型 Diffusion Models。扩散模型Diffusion Models。

原创 2024-05-16 23:16:19 · 3156 阅读 · 0 评论
Swin Transformer：屠榜各大CV任务的视觉Transformer模型

Swin Transformer是一种新型的Transformer架构，专为计算机视觉任务而设计。它引入了基于移动窗口的自注意力机制，并采用了层级式的特征表达方式，使得模型在计算复杂度和性能之间取得了平衡。Swin Transformer 模型在论文Swin Transformer: Hierarchical Vision Transformer using Shifted Windows中提出。Swin Transformer：使用移位窗口的分层视觉Transformer。

原创 2024-05-16 22:55:13 · 1647 阅读 · 0 评论
比亚迪算法岗面试，问的贼细！

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。大家好，今天给分享我们一位星球成员的面试总结。该球友投的岗位比较多，主要方向是 NLP，也包括一些多模态、大模型、推荐相关的算法岗位，最终拿到了腾讯、京东和迪子的 offer。

原创 2024-05-12 08:57:54 · 1449 阅读 · 0 评论
推荐收藏！40 道算法工程师必问的高频面试题！

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。春招真的很卷，想要春招上岸的同学，一定要认真准备起来了今天给大家整理了40道算法工程师面试高频题，找算法工程师岗位的同学要码住认真看噢✅ 面试题1：请你说说回归问题可以设置支持向量机吗？2：介绍一下SVM，遇到线性不可分怎么办，核函数有什么特点？

原创 2024-05-05 22:56:54 · 2690 阅读 · 0 评论
《机器学习算法面试宝典》重磅发布！

我们经常会组织场算法岗技术&面试讨论会，会邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。基于讨论和经验总结，历时半年的梳理和修改，《机器学习算法面试宝典》（以下简称《算法面试宝典》）终于可以跟大家见面了。

原创 2024-05-05 22:38:03 · 1440 阅读 · 0 评论
面试快手计算机视觉算法岗，太卷了。。。

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。今天我整理星球中一位女生面试快手算法的面经，分享给大家，希望对后续找工作的有所帮助。✅1、介绍一下ReLU，LeakyReLU✅2、ReLU的优缺点✅3、ReLU激活函数是如何解决梯度消失和梯度爆炸问题的？✅4、什么是梯度消失和梯度爆炸？什么单元更容易出现梯度消失梯度爆炸的问题？

原创 2024-05-03 09:01:26 · 1016 阅读 · 0 评论
五倍吞吐量，性能全面包围 Transformer：新架构 Mamba 引爆AI圈

屹立不倒的 Transformer 迎来了一个强劲竞争者。在别的领域，如果你想形容一个东西非常重要，你可能将其形容为「撑起了某领域的半壁江山」。但在 AI 大模型领域，Transformer 架构不能这么形容，因为它几乎撑起了「整个江山」。自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，但随着模型规模的扩展和需要处理的序列不断变长，Transformer 的局限性也逐渐凸显。

原创 2024-03-31 15:59:35 · 1226 阅读 · 0 评论
微软最新10道算法岗面试题！

节前，我们星球组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。今年的算法面试题太新了吧！AIGC相关的面试题猛增，特别是去年到今年爆火的大模型、多模态、扩散模型、SAM、Mamba考察的知识点越来越多。我特别整理了10道微软近期面经中代表性的算法面试题，你看看都会么？SAM轻量级变体有哪些？LoRA和adapter哪个效果好？

原创 2024-03-31 15:50:01 · 981 阅读 · 0 评论
神仙打架！投了大概20多家，成功拿到商汤计算机视觉算法岗！

今年算法岗竞争也太激烈了吧，神仙打架，找实习找的心累(找了差不多2个月)。先说一下自己的背景：双非本985硕非科班研一(三非本硕都是微电子)，两年制硕，去年五月开始接触CV，一个实验室的项目，一个天池36名，数据结构与算法零基础。投了大概20多家吧，只有4家跟我面试。本来是要字节跳动面试的，但是找实习找的太累了，又听说字节跳动面试都是算法题，怕了，直接翘了。

原创 2024-03-05 23:28:00 · 1204 阅读 · 0 评论
面了腾讯和旷视的计算机视觉岗（实习生），被问蒙了。。。。

这是腾讯面的第二个部门，在流程上正式一些，直接在官网上拉进了面试流程。(第一个直接邮件通知)但是体验上有时候会一般般，比如二面的时候没交流直接定了面试的时间，不过最后我说不合适就改了。三面的时候恰巧下午赶飞机，面试官迟到了半小时心里有情绪，在场景题上则基本自己发挥，面第一个部门的时候面试官会和我交流交换一些思路，那时候更像讨论问题，更喜欢一些。

原创 2024-03-05 23:11:39 · 1198 阅读 · 0 评论
推荐收藏！这是我见过计算机视觉图像算法最全面经了

今年CV方向算法工程师非常难找，投递CV算法的毕业生越来越多，各个CV岗位（包括研究岗与业务线上的算法工程师岗）对于求职人员的要求也越来越高。本文以自己春招实习以及秋招的经历为基础，整理秋招求职的视觉图像算法中的经常会遇到的一些面试问题。主要整理一些常问的基础知识以及算法知识。由于每个人自己的项目不同，岗位的不同问题也会有一些不同，这些基础问题应该是都有所理解的，这些基础知识作为查漏补缺来看吧。

原创 2024-03-05 22:26:06 · 2794 阅读 · 1 评论
字节跳动-博士生-计算机视觉研究员面经分享

字节跳动是个非常重视技术和员工基础能力的公司，从问的问题就可以看出来，技术面的时候问了很多有意思的基础问题。当然技术面的时候，关于我的个人研究方向，他们也都提出了一些比较深入的问题，可以看出对学术前沿的了解还是很深入的。而且字节跳动的面试官人都非常奈斯，当我有些问题记不起来或者答不出来时，他们都会耐心地提示、给出意见，整体来说面试体验还是非常棒的。另外，面试过程也给了我启示，那就是要多复习基础知识，包括机器学习、数学、算法题等等。

原创 2024-03-05 22:19:06 · 2056 阅读 · 0 评论
推荐收藏！腾讯算法岗面试题9道(含答案)

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。今天我整理一下算法岗方向面试题，分享给大家，希望对后续找工作的有所帮助。Transformer是一种深度学习模型架构，特别适用于序列到序列的任务，如机器翻译。

原创 2024-03-02 22:31:34 · 2696 阅读 · 0 评论
纯攒人品！面了阿里算法岗(cv方向) ，这次找到组织了。。。

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。今天整理我们社群粉丝分享的算法岗方向面试题，分享给大家，希望对后续找工作的有所帮助。

原创 2024-03-02 22:24:00 · 1018 阅读 · 0 评论
目标检测新SOTA：YOLOv9 问世，新架构让传统卷积重焕生机

可编程梯度信息（PGI）该研究提出了一种新的辅助监督框架：可编程梯度信息（Programmable Gradient Information，PGI），如图 3（d）所示。PGI 主要包括三个部分，即（1）主分支，（2）辅助可逆分支，（3）多级辅助信息。PGI 的推理过程仅使用了主分支，因此不需要额外的推理成本；辅助可逆分支是为了处理神经网络加深带来的问题，网络加深会造成信息瓶颈，导致损失函数无法生成可靠的梯度；多级辅助信息旨在处理深度监督带来的误差累积问题，特别是多个预测分支的架构和轻量级模型。

原创 2024-02-24 15:40:01 · 1916 阅读 · 0 评论
AI卷趴程序员，DeepMind祭出竞赛级代码生成系统AlphaCode，超越近半码农

继Copilot之后，码农距失业又前进了一步？刚刚，DeepMind发布了竞赛级代码生成系统AlphaCode，并声称新的代码生成系统可与人类程序员竞争。去年，OpenAI发布了重磅产品——Codex，一个能自己编程的AI。AI编程这件事似乎也变得不新鲜了，像GitHub前不久闹得风风火火的Copilot，也是其中一个。刚刚，DeepMind发布了一个名为AlphaCode的代码生成系统，并声称可与人类相匹敌。最新研究成果_Competition-Level Code Generation with

原创 2022-02-03 14:12:12 · 2157 阅读 · 0 评论
Poly-YOLO：更快，更精确的检测（主要解决Yolov3两大问题，附源代码）

论文地址：https://arxiv.org/pdf/2005.13243.pdf源代码：https://gitlab.com/irafm-ai/poly-yoloYOLOv3改进版来了！与YOLOv3相比，Poly-YOLO的训练参数只有其60％，但mAP却提高了40％！并提出更轻量的Poly-YOLO Lite。01背景

原创 2022-01-04 21:33:47 · 922 阅读 · 0 评论
霸榜GitHub热门第一多日后，Colossal-AI正式版发布

大规模并行AI训练系统Colossal-AI，旨在作为深度学习框架的内核，帮助用户便捷实现最大化提升AI部署效率，同时最小化部署成本。开源地址：https://github.com/hpcaitech/ColossalAIColossal-AI一经开源便受到广泛关注，连续多日登顶GitHub热榜Python方向世界第一，与众多已有数万star的明星开源项目一起受到海内外关注！经过开发者们的不断努力，Colossal-AI在数月的密集测试后迎来正式版！此版本由300多次commits组成。本次正式版更新重点优

原创 2022-04-06 17:55:12 · 4564 阅读 · 2 评论
超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

陈萍大规模数据集对自监督预训练是必要的吗？Meta AI 认为，小数据集也能自监督预训练，效果还不错。目前，计算机视觉神经网络被大量参数化：它们通常有数千万或数亿个参数，这是它们成功利用大型图像集合 (如 ImageNet) 的关键。然而，这些高容量模型往往会在小型（包含数十万张图像）甚至中型数据集上过度拟合。因此，有研究者指出在 2014 年：学习 CNN 的过程相当于估计模型数百万个参数，这需要大量的带标注的数据。当今应对数据匮乏问题的主流学习范式是，即先在大型

原创 2022-01-07 15:23:56 · 396 阅读 · 0 评论
AAAI 2022 | 传统GAN修改后可解释，并保证卷积核可解释性和生成图像真实性

本文介绍中科院计算所、上海交通大学等机构在 AAAI 2022 上发表的关于可解释生成对抗网络（GAN）的工作。该工作提出了一种将传统 GAN 修改为可解释 GAN 的通用方法，使得 GAN 生成器中间层的卷积核可以学习到解耦的局部视觉概念（例如人脸的眼睛、鼻子和嘴巴等部分）。每个卷积核在生成不同图像时可以稳定地生成对应于相同视觉概念的图像区域。可解释 GAN 使得人们可以通过操纵层中相应卷积核的特征图来修改生成图像上的特定视觉概念，为 GAN 生成图像的可控编辑方法提供了一个新的角度。喜欢记得收藏、关注、

原创 2022-06-14 23:47:28 · 653 阅读 · 0 评论
通过学习令牌化提高视觉 Transformer 的效率和准确率

Transformer模型在计算机视觉任务（包括目标检测和视频分类）领域不断取得领先成果。Transformer 模型https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html目标检测https://arxiv.org/pdf/2103.14030v2.pdf视频分类https://

原创 2022-01-19 20:54:39 · 1393 阅读 · 0 评论
Self-Attention和CNN的优雅集成，清华大学等提出ACmix，性能速度全面提升

清华大学等提出了一个混合模型ACmix：它既兼顾Self-Attention和Convolution的优点，同时与Convolution或Self-Attention对应的模型相比，具有更小的计算开销。实验表明，本文方法在图像识别和下游任务上取得了持续改进的结果。 >>加入极市CV技术交流群，走在计算机视觉的最前沿论文链接：https://arxiv.org/pdf/2111.14

原创 2021-12-03 09:03:54 · 3313 阅读 · 1 评论
别再用平均池化层了，Meta AI把注意力塞到池化层，性能立刻提升0.3

注意力机制这么好用，怎么不把它塞到卷积网络里？最近Meta AI的研究人员提出了一个基于注意力的池化层，仅仅把平均池化层替换掉，就能获得+0.3%的性能提升！Visual Transformer（ViT）作为计算机视觉领域的新兴霸主，已经在各个研究任务中逐渐替换掉了卷积神经网络CNN。 ViT与CNN之间存在着许多不同点，例如ViT的输入是image patch，而非像素；分类任务中，ViT是通过对类标记（clas

原创 2022-01-07 14:14:15 · 929 阅读 · 0 评论
Meta AI提出PatchConvNet：利用基于注意力的聚合来增强卷积网络

注意力机制这么好用，怎么不把它塞到卷积网络里？最近Meta AI的研究人员提出了一个基于注意力的池化层，仅仅把平均池化层替换掉，就能获得+0.3%的性能提升！Visual Transformer（ViT）作为计算机视觉领域的新兴霸主，已经在各个研究任务中逐渐替换掉了卷积神经网络CNN。ViT与CNN之间存在着许多不同点，例如ViT的输入是image patch，而非像素；分类任务中，ViT是通过对类标记（class token）进行决策等等。class token实际上是ViT论文原作者提出，用于整合

原创 2022-01-10 17:31:26 · 509 阅读 · 0 评论
论述ViT的成功不在注意力，ShiftViT用 Swin Transformer 的精度跑赢ResNet的速度

注意力机制被广泛认为是Vision Transformer(ViT)成功的关键，因为它提供了一种灵活和强大的方法来建模空间关系。然而，注意力机制真的是ViT不可或缺的组成部分吗？它能被一些其他的替代品所取代吗？为了揭开注意力机制的作用，作者将其简化为一个非常简单的情况：ZERO FLOP和ZERO parameter。具体地说，作者重新审视了Shift操作。它不包含任何参数或算术计算。唯一的操作是在相邻的特征之间交换一小部分通道。基于这个简单的操作，作者构建了一个新的Backbone，即ShiftViT，

原创 2022-02-14 18:37:43 · 3405 阅读 · 1 评论
几分钟让小孩的人物涂鸦「动起来」，Facebook AI创建了一个奇妙的火柴人世界

AI 让儿童手绘「活」了起来。你有没有想过将一张儿童绘画制作成动画？就如下图，儿童能够绘制出独特和富有创造力的人物和动物：长着双脚的星星、腿超级长的鸟……父母和老师可以很容易地理解孩子绘画想要表达什么，但 AI 很难完成这项任务，因为儿童绘画通常以抽象、奇特的方式构建，就以儿童绘画中的「人」来说，绘画中的「人」有许多不同的形式、颜色、大小和比例，在身体对称性、形态和视角方面几乎没有相似之处。对 AI 来说，识别儿童绘画还存在一定的困难。目前，出现了许多 AI 工具和技术

原创 2021-12-19 13:21:28 · 1668 阅读 · 0 评论
LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

自监督学习能在各种任务中学习到分层特征，并以现实生活中可使用的海量数据作为资源，因此是走向更通用人工智能的一种途径，也是深度学习三巨头之一、图灵奖得主 Yann LeCun 一直推崇的研究方向。LeCun 认为：相比于强化学习，自监督学习（SSL）可以产生大量反馈，能够预测其输入的任何一部分（如预测视频的未来画面），从而具有广泛的应用前景。自监督学习通过直接观察环境来进行学习，而非通过有标签的图像、文本、音频和其他数据源进行

原创 2022-01-22 21:47:34 · 228 阅读 · 0 评论
刚刚，arXiv论文数破200万，没有arXiv，就没有21世纪的科研突破

2022年1月3日，论文预印本平台arXiv的论文数量突破200万篇。30年来，arXiv预料之外的成功，给科学界带来巨大助益，但现在也面临了维持艰难的窘境。2022年1月3日，论文预印本平台arXiv发布了自创始以来的第200万篇论文，论文题目是《仿射迭代和翘曲效应：多种方法论》（Affine Iterations and Wrapping Effect: Various Approaches）。ArXiv经历了爆炸式发展，创始人保罗·金斯帕格得知这个消息后说：「网站用了23年半获得100万份论文，又

原创 2022-01-23 14:43:08 · 1686 阅读 · 0 评论
GAN方法去模糊-DeblurGANv2

DeblurGANv2是乌克兰天主教大学的Orest Kupyn等人提出的一种基于GAN方法进行盲运动模糊移除的方法。它在第一版DeblurGAN基础上进行改进而来，通过引入Feature Pyramid Network与轻量型backbone等使得DeblurGANv2取得更快、更优的性能。作者首次将FPN引入到去模糊中作为生成器的核心模块。FPN可以与大量的backbone协作，可以轻松的在性能与效率方面取得均衡。FPN-Inception-ResNet-v2集成取得了SOTA性能，而FPN-Mobi

原创 2022-01-10 17:46:39 · 4542 阅读 · 0 评论
一文详解Vision Transformer（附代码）

Transformer 在 NLP 中大获成功，Vision Transformer 则将 Transformer 模型架构扩展到计算机视觉的领域中，并且它可以很好的地取代卷积操作，在不依赖卷积的情况下，依然可以在图像分类任务上达到很好的效果。卷积操作只能考虑到局部的特征信息，而 Transformer 中的注意力机制可以综合考量全局的特征信息。Vision Trans

原创 2022-01-19 21:16:09 · 4529 阅读 · 0 评论
特拉维夫大学把StyleGAN进行了大汇总，全面了解SOTA方法、架构新进展

GAN 生成高分辨率图像的能力正在彻底改变图像合成和处理领域。2019 年 Karras 等人提出 StyleGAN ，该技术走到了图像合成的最前沿，被公认为是最先进的高质量图像生成器。我们先来看下 StyleGAN 的合成效果：StyleGAN 不受监督，但它的潜在空间却表现的令人惊讶。事实证明，StyleGAN 性能非常好，甚至支持线性潜在算法。例如，它支持在一组潜在代码中添加一个表示年龄的向量，使图像中人物年龄看起来更年长。研究证明，StyleGAN 不但可以线性的排列潜在空间，也可以以一种解耦（

原创 2022-04-04 09:23:17 · 827 阅读 · 0 评论
Swin Transformer升级版来了，30亿参数，刷榜多项视觉任务，微软亚研原班人马打造

机器之心报道编辑：杜伟、陈萍微软亚洲研究院升级了 Swin Transformer，新版本具有 30 亿个参数，可以训练分辨率高达 1,536×1,536 的图像，并在四个具有代表性的基准上刷新纪录。在不久之前公布的 ICCV 2021 论文奖项中，来自微软亚洲研究院的研究者凭借论文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》斩获 ICCV 2021 马尔奖（最佳论文）。这篇论文的作者主要包括中国科学技术大

原创 2021-11-21 13:34:29 · 1467 阅读 · 1 评论
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点

在本文中提出了一种简单的注意力机制Box-Attention。它支持网格特征之间的空间交互(从感兴趣的Box中采样)，并提高了Transformer针对多个视觉任务的学习能力。具体来说，介绍的BoxeR，即Box Transformer的缩写，它通过预测输入特征图上的参考窗口的转换来处理一组Box。BoxeR通过考虑它的网格结构来计算这些Box上的注意力权重。值得注意的是，BoxeR-2D在其注意力模块中自然地对Box信息进行推理，使其适合于端到端实例检测和分割任务。通过学习box-attention模块

原创 2021-12-10 14:47:20 · 2929 阅读 · 0 评论
【谷歌新作】Transformer杀入机器人领域，RT-1：97%成功率，轻松完成700多条控制指令

机器人的动作维度包括手臂运动的 7 个变量（x、y、z、翻转、俯仰、摇摆、打开夹具）、3 个基本运动变量（x、y、摇摆）以及一个在控制臂、控制 base 或终止 episode 三种模式之间切换的额外具体变量。SayCan 算法是谷歌在今年提出的，在这个算法中，谷歌让机器人充当语言模型的「手和眼睛」，而语言模型提供有关任务的高级语义知识。为了进一步挖掘 RT-1 的性能，该团队还将训练另一个机器人的数据用来训练 RT-1，目的有两个：(1) 测试模型在新数据上是否保持其在原始任务上的性能；

原创 2022-12-17 18:09:55 · 2741 阅读 · 0 评论
北大校友、约翰·霍普金斯大学博士生提出了一种新的方法，力压何恺明的新作MAE，怒摘12个SOTA

近日，北大校友、约翰·霍普金斯大学博士生提出了一种新的方法：MaskFeat，力压大神何恺明的新作MAE，摘下12个SOTA！什么叫卷？ CV大神何恺明的力作「Masked Autoencoders Are Scalable Vision Learners」（MAE）刚出了一个多月。又有新SOTA出来了！这是一个能用于视频模型的自监督预训练方法：掩码特征预测（MaskFeat）。&n

原创 2021-12-20 16:05:32 · 1020 阅读 · 0 评论
大连理工本科生顶会连刷SOTA被爆作弊，AAAI 2022接收后又面临撤稿，一作仍未发声

AAAI 2022刚要落下帷幕就又被掀起来了！大连理工本科生一作论文中稿，本该是件值得庆祝的事，但有网友发现了论文中的致命漏洞：声称的无监督方法竟然引入了标签！这让无数被拒的论文情何以堪？导师及二作都出面澄清将会补充实验，但一作仍未公开发声。顶会AAAI 2022的惨烈程度，各位投稿人一定心有体会，近万篇投稿只有15%的录取率，无数全positive的优秀工作被录取率卡掉。然而…… 「有的时候中了

原创 2021-12-10 14:41:14 · 2556 阅读 · 2 评论
豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021，一层8个token比1024个还好用

在这篇文章里，谷歌提出了TokenLearner方法，Vision Transformer用上它最多可以降低8倍计算量，而分类性能反而更强！目前，Transformer模型在计算机视觉任务（包括目标检测和视频分类等任务）中获得了最先进的结果。不同于逐像素处理图像的标准卷积方法，Vision Transformer（ViT）将图像视为一系列patch t

原创 2021-12-14 08:25:09 · 237 阅读 · 0 评论

CV

作者: 机器学习社区

面了英伟达算法岗，被疯狂拷打。。。

字节跳动算法岗面试，问的贼细！

一文搞懂 Transformer 中的三种注意力机制

一文搞懂扩散模型Diffusion Models

Swin Transformer：屠榜各大CV任务的视觉Transformer模型

比亚迪算法岗面试，问的贼细！

推荐收藏！40 道算法工程师必问的高频面试题！

《机器学习算法面试宝典》重磅发布！

面试快手计算机视觉算法岗，太卷了。。。

五倍吞吐量，性能全面包围 Transformer：新架构 Mamba 引爆AI圈

微软最新10道算法岗面试题！

神仙打架！投了大概20多家，成功拿到商汤计算机视觉算法岗！

面了腾讯和旷视的计算机视觉岗（实习生），被问蒙了。。。。

推荐收藏！这是我见过计算机视觉图像算法最全面经了

字节跳动-博士生-计算机视觉研究员面经分享

推荐收藏！腾讯算法岗面试题9道(含答案)

纯攒人品！面了阿里算法岗(cv方向) ，这次找到组织了。。。

目标检测新SOTA：YOLOv9 问世，新架构让传统卷积重焕生机

AI卷趴程序员，DeepMind祭出竞赛级代码生成系统AlphaCode，超越近半码农

Poly-YOLO：更快，更精确的检测（主要解决Yolov3两大问题，附源代码）

霸榜GitHub热门第一多日后，Colossal-AI正式版发布

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

AAAI 2022 | 传统GAN修改后可解释，并保证卷积核可解释性和生成图像真实性

通过学习令牌化提高视觉 Transformer 的效率和准确率

Self-Attention和CNN的优雅集成，清华大学等提出ACmix，性能速度全面提升

别再用平均池化层了，Meta AI把注意力塞到池化层，性能立刻提升0.3

Meta AI提出PatchConvNet：利用基于注意力的聚合来增强卷积网络

论述ViT的成功不在注意力，ShiftViT用 Swin Transformer 的精度跑赢ResNet的速度

几分钟让小孩的人物涂鸦「动起来」，Facebook AI创建了一个奇妙的火柴人世界

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

刚刚，arXiv论文数破200万，没有arXiv，就没有21世纪的科研突破

GAN方法去模糊-DeblurGANv2

一文详解Vision Transformer（附代码）

特拉维夫大学把StyleGAN进行了大汇总，全面了解SOTA方法、架构新进展

Swin Transformer升级版来了，30亿参数，刷榜多项视觉任务，微软亚研原班人马打造

全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点

【谷歌新作】Transformer杀入机器人领域，RT-1：97%成功率，轻松完成700多条控制指令

北大校友、约翰·霍普金斯大学博士生提出了一种新的方法，力压何恺明的新作MAE，怒摘12个SOTA

大连理工本科生顶会连刷SOTA被爆作弊，AAAI 2022接收后又面临撤稿，一作仍未发声

豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021，一层8个token比1024个还好用