旷视-CSDN博客

转载旷视科技 2025 MegEagle 创视者计划正式启动

2024-07-19 10:08:30 12

转载旷视研究院推出开源AI人像视频生成框架——MegActor，输入照片即可模仿任意表情包...

日前，旷视科技发布了一项新的开源 AI 人像视频生成框架——MegActor。基于该框架，用户只需输入一张静态的肖像图片，以及一段视频（演讲、表情包、rap）文件，即可生成一段表情丰富、动作一致的 AI 人像视频。MegActor 所生成的视频长度，取决于给定的驱动视频的长度。与当前国内外最新涌现的 AI 视频模型不同，旷视 MegActor 将采用开源的方式，提供给开发者社区使用。MegActo...

2024-06-26 17:04:19 52

转载校招+社招 | 旷视四大类热招岗位合集

算法研究员 - 北京职位描述：工作职责包含其中之一：1、从事基于计算机视觉和深度学习的端上生物识别业务，包括人脸识别、掌纹识别和指纹识别等，构建灵活多样、快速、安全的生物验证体验；2、推进VR/AR应用中多个3D视觉算法的落地，包括微手势、裸手手势交互、眼球追踪、Slam、表情重建等多项3D视觉算法；3、推进基于生成式模型在生物识别和人机交互的落地。职位要求：1、过硬的科研背景：深度学习/机器学习...

2024-05-24 15:30:30 62

转载春招 | 旷视科技春季校园招聘正式启动！

2024-03-15 15:18:23 74

转载 MegEngine 优化 dataloader 使用体验！data monitor 帮助更好定位性能瓶颈

业务模型训练中 Data 部分可能是瓶颈所在在训练业务模型过程中，如果我们发现模型的训练速度不符合预期，往往会下意识地认为网络本身出了问题。但实际上，大多数时候问题发生在模型的数据供给逻辑中。区分一个训练过程的瓶颈到底是在准备数据，还是在网络的计算阶段其实是很简单的。比如对于下面这段代码：data_begin = time.perf_counter()images, labels = next(...

2023-12-25 19:30:06 144

转载 MegEngine 正式支持 XLA 啦！

XLA（Accelerated Linear Algebra）是 Google 提出的一个神经网络编译器，可以用于加速 AI 模型的训练和推理。MegEngine 1.13.1 中也已经支持了 XLA，在训练模型时可以选择开启此项功能，不同的模型可以获得 10%~80% 不等的速度提升。主要的目标场景MegEngine 现在是动态执行的，即 python 中每一个 mge.functional 的...

2023-12-19 19:30:19 84

转载旷视“秋招补录+实习”职位上新啦！

点击“阅读原文”，一键投递简历！

2023-11-09 17:30:15 182

原创 ICCV 2023|Occ2Net，一种基于3D 占据估计的有效且稳健的带有遮挡区域的图像匹配方法

本文为大家介绍一篇入选ICCV 2023的论文，《Occ2Net: Robust Image Matching Based on 3D Occupancy Estimation for Occluded Regions》，一种基于3D 占据估计的有效且稳健的带有遮挡区域的图像匹配方法。论文链接：https://arxiv.org/abs/2308.16160开源代码：https://github...

2023-09-25 15:05:36 781

转载 ICCV 2023 | 旷视研究院入选论文亮点解读

近日，国际计算机视觉大会 ICCV（International Conference on Computer Vision）公布了 2023 年论文录用结果，本届会议共有 8068 篇投稿，接收率为26.8%。ICCV 是全球计算机领域顶级的学术会议，每两年召开一次，ICCV 2023 将于今年10月在法国巴黎举行。今年，旷视研究院 14 篇论文入选，涵盖纯视觉 3D 目标检测、多模态 3D 检测...

2023-08-07 15:03:56 525

转载招人啦！旷视 MegEagle 创视者计划启动！

2023-07-19 11:15:59 201

原创旷视研究院获 NTIRE 2023 图像复原和增强赛事Efficient Super-Resolution赛道冠军

在最近结束的 NTIRE 2023 比赛中，旷视研究院在 Efficient Super-Resolution 赛道脱颖而出，击败 40 余支队伍，夺得全球冠军。这也是旷视连续第三年在 NTIRE 的图像超分辨率赛道上夺冠。NTIRE 比赛是国际级别的学术竞赛，聚焦于图像恢复和增强领域的最新趋势和技术。今年的比赛开设了多个赛道，吸引了来自全球各地的顶尖研究团队和公司参与，希望通过创新的方法和算法来...

2023-06-30 16:15:18 304

原创旷视研究院获 CVPR 2023 自动驾驶国际挑战赛 OpenLane Topology 赛道冠军

近日，为期三个月的CVPR2023自动驾驶国际挑战赛比赛结果揭晓。旷视研究院在OpenLane Topology 赛道中击败 30 余支国内外队伍，夺得冠军。自动驾驶技术已经渗透到人们的日常生活中，但是传统的感知方法仍不能满足大家对 L5 级自动驾驶的追逐。CVPR 2023 自动驾驶国际挑战赛将自动驾驶技术分为对背景场景的理解、对前景物体的感知和对未来运动的规划三方面，并举办了四个不同赛道...

2023-06-20 14:42:43 1564

原创 MegEngine 使用小技巧：用 mperf 进行安卓 opencl 算子的 roofline 分析

前言roofline 分析是一种简单评估当前计算任务对当前平台计算/访存能力的利用情况的方法，可以帮助分析算子的优化方向和优化潜力。mperf 实现了安卓 mali/adreno 两种 gpu 平台的 roofline 分析能力，下面以 mali 平台为例，简单介绍一下操作步骤。编译和集成下载 repo 代码git clone https://github.com/MegEngine/mperf....

2023-06-05 17:09:23 388

原创 2023 开源之夏来啦！报名 MegEngine 项目，赢取万元奖金！

“开源软件供应链点亮计划-暑期2023”是一项面向高校学生的暑期活动，为高校学生提供了绝佳的、友好开放的交流平台。使学生可以真正投身于开源软件的开发维护，得到资深开源软件开发者指导的机会，获得丰硕的活动奖金，并帮助学生获取优秀企业的关注。活动流程同学们在6月4日之前在开源之夏官网（https://summer-ospp.ac.cn）挑选项目，与导师沟通并准备项目申请材料、提交申请。MegEngin...

2023-05-16 15:45:50 403

原创安卓机上 4G 内存跑 Alpaca，欢迎试用轻量级 LLM 模型推理框架 InferLLM

从 LLM 火爆以来，社区已经出现了非常多优秀的模型，当然他们最大的特点就是体积大。最近为了让大模型可以在更低端的设备上运行，社区做了非常多的工作， gptq 实现了将模型进行低比特量化，因此降低了运行大模型对 CPU 内存、GPU 显存的要求，llama.cpp 实现了在本地 CPU/GPU 上就可以运行大模型，并且步骤非常简单，replit-code-v1-3b 用更小的模型实现了更智能的 c...

2023-05-10 15:47:50 1091

原创 MegEngine 工具链大盘点，让模型落地超 Easy！

在当今人工智能领域，深度学习算法已经广泛应用于图像处理、自然语言处理、语音识别等各种领域。然而，实现一个高效的深度学习算法需要运用大量的技术和工具，并要面临许多挑战，如训练计算资源消耗大，模型转换难，高效快捷的推理部署等。MegEngine 作为一个训推一体的深度学习框架，其生态工具集合了图像对比、模型转换、硬件性能优化、pipeline 搭建等多种功能，能够满足用户在多种场景下的需求，为算法的实...

2023-04-03 16:06:59 325

原创 CVPR 2023 | UniDistill: 在鸟瞰视角下统一的跨模态知识蒸馏框架

技术信仰价值务实在使用自动驾驶 3D 目标检测算法时，你是否困扰于“既想也想”的问题？既想用单模态检测器以节省传感器成本，并且加快检测速度，也想获得其它模态的知识以得到更高的检测精度。为此，旷视研究院 AI 计算组提出了统一的跨模态知识蒸馏框架——UniDistill，它克服了传统知识蒸馏框架的缺陷，不仅支持多种模态组合的蒸馏路径，还能让单模态检测模型的性能大幅提升。下面带领大家感受一下这种全...

2023-03-29 15:43:29 717

原创 CVPR 2023 | 旷视研究院入选论文亮点解读

近日，CVPR 2023 论文接收结果出炉。近年来，CVPR 的投稿数量持续增加，今年收到有效投稿 9155 篇，和 CVPR 2022 相比增加 12%，创历史新高。最终，大会收录论文 2360 篇，接收率为 25.78 %。本次，旷视研究院有 13 篇论文入选，涵盖3D 目标检测、多目标跟踪、模型压缩、知识蒸馏等多个领域。以下为入选论文简介：????01VoxelNeXt:Fully Sparse...

2023-03-21 16:03:16 3690

转载校招+实习 | 旷视研究院职位一览无余！

旷视研究院旷视研究院是旷视设立的公司级研究机构，是驱动整个公司技术创新的引擎。旷视研究院通过基础创新突破AI技术边界，以工程创新实现技术到产品的快速转化。经过多年发展，旷视研究院已成为全球规模领先的计算机视觉和人工智能研究院。目前，旷视研究院的科研成果包括AI生产力平台Brain++、开源深度学习框架旷视天元MegEngine、AI算法生产平台AI Service、移动端高效卷积神经网络Shuff...

2023-03-17 16:21:47 566

原创 MegEngine使用小技巧：借助DataLoader获取分批数据

在使用MegEngine进行模型训练时，首先要进行的是数据加载和预处理。在此过程中，MegEngine中的megengine.data（https://www.megengine.org.cn/doc/stable/zh/reference/data.html#module-megengine.data）模块，提供了数据分批功能，其内部实现流程如下图：通过使用Dataloader，我们可以方便地对...

2023-03-14 10:33:17 413

原创全球AI论文“高引用转化率”排名出炉，旷视位列国内第一，全球第二

全球每年上新的 AI 论文浩如烟海，哪些机构或国家（地区）发表的 AI 论文是最有影响力的？近日，美国 Zeta Alpha 平台基于 2020 年、2021 年和 2022 年每年被引用次数最多的 100 篇论文进行了多维度的详细分析。在已发表论文高引用量转化率的排名中，OpenAI 位列第一，旷视排名第二，DeepMind 获得第三。在 2022 年引用量 Top100 的名单中，旷视研究院 ...

2023-03-07 10:57:48 559

原创 mperf：移动/嵌入式平台算子性能调优利器

快速了解mperf在移动/嵌入式平台，为了最大程度发挥硬件算力，对算子极致性能的追求变成必然，不同于桌面/服务器平台，移动/嵌入式平台在算子性能调优方面可选择的工具很少。MegEngine 团队一直在探索什么样的工具能够在算子调优流程中带来助益，来帮助达成如下的算子性能调优反馈回路，这也是 mperf 诞生的背景。图1 算子性能调优反馈回路mperf 是一个微架构层次的算子性能调优工具箱，主要面向...

2023-03-02 17:00:45 604

原创 OccDepth：对标 Tesla Occupancy 的开源 3D 语义场景补全⽅法

开源代码: https://github.com/megvii-research/OccDepth论文链接：https://arxiv.org/abs/2302.13540一、背景在 2022 年的 Tesla AI Day 上， Tesla 将 Bev（鸟瞰图）感知进⼀步升级，提出了基于 Occupancy Network 的感知⽅法。这种基于 Occupancy Grid Mapping ...

2023-02-28 10:30:51 613

转载 ICLR 2023 | RevCol：可逆的多 column 网络，大模型架构设计新范式

我们给神经网络架构增加了一个维度！自 ViT 时代到来之后，由一叠 blocks 堆起来构成的基础模型已经成为了广泛遵循的基础模型设计范式，一个神经网络的宏观架构由width宽度（channel 数）和 depth 深度（block 数）来决定。有没有想过，一个神经网络未必是一叠 blocks 组成的？可能是 2 叠，4 叠，或者…16 叠？介绍一下我们最新的工作“Reversible Colum...

2023-02-17 11:27:59 432

原创 AAAI 2023| 一即一切：轻松实现不同 NeRF 系列结构间的转换！

论文链接：https://arxiv.org/abs/2211.15977开源代码：https://github.com/megvii-research/AAAI2023-PVD一、导语神经辐射场 (NeRF[1])方法已被证明是一种有效的，高质量的 3D 场景表示，并支持诸如编辑，检索，导航等下游任务。目前多种结构都在争夺 NeRF 的核心表示，包括多层感知器 (MLP)、稀疏张量(sparse...

2023-02-10 10:01:12 663

转载如何写一个深度学习编译器

编译器本质上是一种提高开发效率的工具，将高级语言转换为低级语言（通常是二进制机器码），使得程序员不需要徒手写二进制。转换过程中，首要任务是保证正确性，同时需要进行优化以提升程序的运行效率。传统意义上的编译器的输入通常是某种高级语言，输出是可执行程序。在实际工作中接触到了深度学习编译器开发，其设计思想与传统编译器非常类似，所以本文以深度学习编译器的开发、结合我们实际开发的深度学习编译器 MegCC ...

2023-01-10 17:52:01 392

原创 BaseDet: 走过开发的弯路

BaseDet 开源啦！该 repo 提供了一些经典的检测 SOTA 模型以及相关组件，欢迎大家按需取用~~GitHub：https://github.com/megvii-research/basedetMegStudio 使用示例：https://studio.brainpp.com/project/28826?name=BaseDet%E4%BD%BF%E7%94%A8%E7%A4%BA%E...

2022-12-19 15:45:30 352

原创 AAAI 2023| 旷视研究院入选论文亮点解读

近日，国际人工智能顶级会议 AAAI 2023 （Association for the Advancement of Artificial Intelligence）公布了录用结果。本届会议共收到来自全球的 8777 篇论文投稿，其中 1721 篇论文被录用，论文录用率为 19.6%。AAAI 是由国际人工智能促进协会主办的年会，是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一，...

2022-12-02 15:36:58 2001

转载 Awesome MegEngineer 英雄招募帖，开源社区专属权益等你来领

MegEngine 社区优秀贡献者荣誉体系 —— “Awesome MegEngineer“上线啦！诚邀同样热爱开源的你加入！什么是 “Awesome MegEngineer”Awesome MegEngineer是 MegEngine 社区中有突出成就的贡献者。他们中有熟练掌握 MegEngine 打比赛技能的多项 AI 竞赛获奖者；有凭一己之力扛起 MegFlow 项目布道重任的开源推广大使...

2022-11-17 15:44:16 168

原创 AI 模型编译器 MegCC 开源，让推理引擎体积变小小小小小……

目前社区中存在着不少个移动端深度学习推理框架（比如NCNN、MNN），它们为社区用户在移动端部署深度学习提供了相当多的便利，但是这些推理框架有一个共性问题：随着不断迭代以及性能优化，运行时库会逐渐增大，尤其是不同算子 fuse 时，会导致大量长尾算子，使 App 或 SDK 体积变得尾大不掉。为了解决这个问题，由 MegEngine 团队开源的 MegCC 创新性地使用模型预编译方案，生成模型推理...

2022-11-07 15:20:18 705

转载 MegLab小程序上新，快来挑战下AI画师的真实水平！

//MegLab小程序上新啦！为了方便大家在手机端体验当下最新、最潮流、最有趣的AI 模型和应用，我们在 MegLab 小程序中新增潮流前线板块。上线的首个应用是最近火热的AI 文本转图像功能！今年 9 月，Stability AI 对外发布了Stable Diffusion 的预训练模型权重，这是一个文本转图像的 AI 生成模型。输入关键词描述，AI 即可生成相应的图片结果，其惊艳的...

2022-11-04 10:12:31 361

转载旷视研究院获得 ECCV SSLAD 双赛道冠军

近日，第二届 SSLAD（Self-supervised Learning for Next-Generation Industry-level Autonomous Driving） 2022 Workshop&Challenge 在 ECCV 2022 上举行。SSLAD workshop 致力于解决目前自动驾驶领域全监督学习模型训练过程中需要大量有标注数据的问题，促进学术界和工业界对...

2022-10-28 11:25:22 439

原创旷视研究院获得第一届DanceTrack挑战赛冠军

多目标跟踪和分割任务是指在视频中定位和关联感兴趣的目标，是视频内容理解和人机交互等许多应用中的基础技术。现有的计算机视觉系统在简单场景中取得了良好的跟踪和分割性能，但是在复杂环境中表现一般。为了提升计算机视觉系统在复杂环境中的性能，复杂环境中的多目标跟踪和分割 Workshop（Multiple Object Tracking and Segmentation in Complex Environ...

2022-10-25 16:42:28 876

原创 ECCV 2022 | 通过重新审视全局信息聚合提高图像恢复质量

论文链接：https://arxiv.org/abs/2112.04491图像恢复任务，是指将受损（如带噪声/模糊）的图像恢复为清晰图像。这在日常生活中广泛出现，如手机拍摄的照片通常需要经过图像恢复算法对其进行去噪/去模糊等一系列处理之后，再显示给用户。随着人工智能的崛起，深度学习也占领了图像恢复领域的高地：近年的模型如HINet[1], MPRNet[2], Restormer[3] 等等均在该...

2022-10-19 14:10:33 1076

原创 Starfall｜“造轮子”是一种乐趣吗？

欢迎来到一期一会的“Awesome MegEngineer”，今天我们要为大家介绍一位来自兴趣界的技术型00后——一枚赤裸裸的“为爱发电”人——Starfall。喜欢一切认为是美好的事物，更希望创造美好的他究竟会与旷视天元产生什么样的奇妙反应呢？一起来看看吧！01“造”兴趣与“造轮子”的自得其乐爱因斯坦说：“兴趣是最大的老师”，而对一切美好事物的热爱显然让在桂林电子科技大学计算机科学与技术专业就读...

2022-10-13 11:00:15 402

原创 ECCV 2022 | 图像恢复的简单基线

近年来，基于深度学习的图像降噪/去模糊的算法，在图像恢复领域取得了显著的进展。但与此同时，这些方法的系统复杂度相应的也在上升，如图1. 所示。由此自然产生了一个问题，简单的模型是否也有可能达到最先进的性能？本文尝试回答这个问题，并给出肯定的答复。在本文中，我们先展示如何从零开始搭建一个简单同时性能优秀的基线模型，然后进一步简化该模型：我们发现甚至连传统的激活函数（如ReLU，GELU，Sigmoi...

2022-10-10 14:48:12 807

原创 ECCV 2022 | 视频插帧中的实时中间流估计

概述视频插帧算法旨在视频的相邻帧之间生成若干个中间帧。它被广泛用于视频处理，多媒体播放器和显示设备上。本文提出了一种基于实时中间流估计的视频插帧算法 RIFE，包括一个端到端的高效的中间流估计网络 IFNet，以及基于特权蒸馏的光流监督框架。RIFE 支持在两帧之间的任意时刻点插帧，在多个数据集上达到了最先进的性能且不依赖于任何的预训练模型。相比目前流行的 SuperSlomo 和 DAIN 技术...

2022-09-27 14:00:22 744

原创 ECCV 2022 Oral | 基于EM算法从视频中生成真实光流数据集

论文地址：https://arxiv.org/abs/2207.11075开源代码：https://github.com/megvii-research/RealFlowIntroduction近年来, 基于深度学习的光流算法实现了很高的性能和运算效率。实现这些深度学习方法的一个关键因素是其训练数据集。我们认为, 光流的数据集应具有以下四个关键特性:1)有标签数据对的数量多;2)光流标签的...

2022-09-23 11:07:55 974

原创让研发小哥减重10斤，这款C位亮相的体育应用有点东西！

数字技术突飞猛进的今天，一款有趣有品的人工智能应用该是什么样子？站在它背后的年轻人们有哪些故事想与我们分享，走进旷视运动猿训练站的背后，一起了解研发中的那些事。时间倒流回7月，2022 旷视技术开放日（MegTech 2022）活动现场，基于旷视天元 MegEngine 框架，依托算法生产平台AIS研发而成的“运动猿小刚” demo 成为当之无愧的“人气王”。通过准确描述人体运动过程中的各个动作姿...

2022-09-21 11:00:58 439

原创提速还能不掉点！深度解析 MegEngine 4 bits 量化开源实现

随着深度学习的发展，其应用场景也越发的广泛与多样。这些多样化的场景往往会对实际的部署提出更加“定制化”的限制。例如，自动驾驶汽车对人体识别的精度要求肯定比图像识别动物分类的精度要求更加严苛，因为二者的应用场景和错误预测带来的后果截然不同。这些“定制化”带来的差异，对于实际部署的模型在精度、速度、空间占用上有更具体的要求。在很多场景中由于部署的设备算力不强、内存较小，导致对于模型的速度和空间占用具有...

2022-09-20 14:36:24 318

空空如也

空空如也