旷视开发者技术社区

AI,人工智能、计算机视觉、人脸识别API、人脸识别应用、图像识别应用

  • 博客(429)
  • 收藏
  • 关注

转载 旷视科技 2025 秋季校园招聘正式启动!

2024-08-05 17:01:18 587

转载 旷视科技 2025 MegEagle 创视者计划正式启动

2024-07-19 10:08:30 498

转载 旷视研究院推出开源AI人像视频生成框架——MegActor,输入照片即可模仿任意表情包...

日前,旷视科技发布了一项新的开源 AI 人像视频生成框架——MegActor。基于该框架,用户只需输入一张静态的肖像图片,以及一段视频(演讲、表情包、rap)文件,即可生成一段表情丰富、动作一致的 AI 人像视频。MegActor 所生成的视频长度,取决于给定的驱动视频的长度。与当前国内外最新涌现的 AI 视频模型不同,旷视 MegActor 将采用开源的方式,提供给开发者社区使用。MegActo...

2024-06-26 17:04:19 1700

转载 <span class=“js_title_inner“>旷视研究院推出开源AI人像视频生成框架——MegActor,输入照片即可模仿任意表情包</span>

旷视研究院,是旷视打造的公司级研究机构。为了完全复刻原始视频的表情和动作,MegActor 采用了原始图像进行驱动,这与多数厂商使用 sketch、pose、landmark 的中间表示皆然不同,能够捕捉到细致的表情和运动信息。旷视科技研究总经理范浩强表示,在 AI 视频生成领域,我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号,同时生成视频相较于原肖像的保真程度也不尽如人意。与音频生成的方法相比,MegActor 生成的视频,不仅能确保表情和动作一致,更能达到同样的自然程度。

2024-06-26 17:04:19 34

转载 校招+社招 | 旷视四大类热招岗位合集

算法研究员 - 北京职位描述:工作职责包含其中之一:1、从事基于计算机视觉和深度学习的端上生物识别业务,包括人脸识别、掌纹识别和指纹识别等,构建灵活多样、快速、安全的生物验证体验;2、推进VR/AR应用中多个3D视觉算法的落地,包括微手势、裸手手势交互、眼球追踪、Slam、表情重建等多项3D视觉算法;3、推进基于生成式模型在生物识别和人机交互的落地。职位要求:1、过硬的科研背景:深度学习/机器学习...

2024-05-24 15:30:30 579

转载 春招 | 旷视科技春季校园招聘正式启动!

2024-03-15 15:18:23 447

转载 MegEngine 优化 dataloader 使用体验!data monitor 帮助更好定位性能瓶颈

业务模型训练中 Data 部分可能是瓶颈所在在训练业务模型过程中,如果我们发现模型的训练速度不符合预期,往往会下意识地认为网络本身出了问题。但实际上,大多数时候问题发生在模型的数据供给逻辑中。区分一个训练过程的瓶颈到底是在准备数据,还是在网络的计算阶段其实是很简单的。比如对于下面这段代码:data_begin = time.perf_counter()images, labels = next(...

2023-12-25 19:30:06 564

转载 <span class=“js_title_inner“>MegEngine 优化 dataloader 使用体验!data monitor 帮助更好定位性能瓶颈</span>

一般的经验是我们可以进一步观察 cpu 的利用率,如果主要时间花在等待数据读取也就是 IO 上,那么 cpu 的利用率一般不会很高,大部分时间在等待,而如果主要时间花在图片解码上,那么一般此时 cpu 利用率会很高。等到 T2,batch1 准备好了,gpu 上会用 batch1 进行计算,同时 cpu 也不会闲着,而是会准备 batch2 的数据,后面的都是类似的,也就是 cpu 和 gpu 彼此之间不会互相等待,两个资源都得到了最大限度的利用。但实际上,大多数时候问题发生在模型的数据供给逻辑中。

2023-12-25 19:30:06 24

转载 <span class=“js_title_inner“>MegEngine 优化 dataloader 使用体验!data monitor 帮助更好定位性能瓶颈</span>

一般的经验是我们可以进一步观察 cpu 的利用率,如果主要时间花在等待数据读取也就是 IO 上,那么 cpu 的利用率一般不会很高,大部分时间在等待,而如果主要时间花在图片解码上,那么一般此时 cpu 利用率会很高。等到 T2,batch1 准备好了,gpu 上会用 batch1 进行计算,同时 cpu 也不会闲着,而是会准备 batch2 的数据,后面的都是类似的,也就是 cpu 和 gpu 彼此之间不会互相等待,两个资源都得到了最大限度的利用。但实际上,大多数时候问题发生在模型的数据供给逻辑中。

2023-12-25 19:30:06 20

转载 MegEngine 正式支持 XLA 啦!

XLA(Accelerated Linear Algebra)是 Google 提出的一个神经网络编译器,可以用于加速 AI 模型的训练和推理。MegEngine 1.13.1 中也已经支持了 XLA,在训练模型时可以选择开启此项功能,不同的模型可以获得 10%~80% 不等的速度提升。主要的目标场景MegEngine 现在是动态执行的,即 python 中每一个 mge.functional 的...

2023-12-19 19:30:19 468

转载 <span class=“js_title_inner“>MegEngine 正式支持 XLA 啦!</span>

而如果我们模型中有一些动态性,比如训练过程中一些 Tensor Shape 会发生变化,亦或者是存在控制流,我们可以使用 partial_trace,将网络中静态的部分 trace 成一些子图并分别交给 XLA 进行编译优化,而网络中其他部分仍然保持动态执行,同时保证性能与灵活性。当整个模型是完全静态时,我们可以使用 xla_trace 将整张网络表达成一张静态图,然后交由 XLA 做后续的优化编译,后续的执行过程将执行这张优化后的计算图提升速度。了解关于 XLA 的更多信息及具体的使用方法。

2023-12-19 19:30:19 24

转载 <span class=“js_title_inner“>编译器上手指南,算子开发及开源项目指导手册,直播报名通道限时开启!</span>

开源深度学习框架旷视天元(MegEngine)是旷视自主研发的国产工业级深度学习框架,是旷视新一代AI生产力平台Brain++的最核心组件,在 2020 年 3 月正式向全球开发者开源。旷视天元(MegEngine)官方推出的线上课程,由不同行业领域、不同 AI 工龄的优秀开源项目开发者进行前沿技术、项目经验分享,更有实习、找工作、保研、比赛等满满干货,助力正处于不同阶段的开发者学习技术、升学、升职!本期课程我们邀请到了两位优秀开发者进行主题分享,其中来自上海交通大学的雷康擅长编译器领域,将为大家。

2023-12-08 17:30:55 23

转载 旷视“秋招补录+实习”职位上新啦!

点击“阅读原文”,一键投递简历!

2023-11-09 17:30:15 609

转载 <span class=“js_title_inner“>旷视“秋招补录+实习”职位上新啦!</span>

点击“阅读原文”,一键投递简历!

2023-11-09 17:30:15 22

原创 ICCV 2023|Occ2Net,一种基于3D 占据估计的有效且稳健的带有遮挡区域的图像匹配方法

本文为大家介绍一篇入选ICCV 2023的论文,《Occ2Net: Robust Image Matching Based on 3D Occupancy Estimation for Occluded Regions》,一种基于3D 占据估计的有效且稳健的带有遮挡区域的图像匹配方法。论文链接:https://arxiv.org/abs/2308.16160开源代码:https://github...

2023-09-25 15:05:36 1213

原创 <span class=“js_title_inner“>ICCV 2023|Occ2Net,一种基于3D 占据估计的有效且稳健的带有遮挡区域的图像匹配方法</span>

本文为大家介绍一篇入选ICCV 2023的论文,《Occ2Net: Robust Image Matching Based on 3D Occupancy Estimation for Occluded Regions》, 一种基于3D 占据估计的有效且稳健的带有遮挡区域的图像匹配方法。论文链接:https://arxiv.org/abs/2308.16160开源代码:https://github.com/megvii-research/Occ2net/tree/main总体思路图像匹配是各种视觉应用中的基

2023-09-25 15:05:36 28

转载 ICCV 2023 | 旷视研究院入选论文亮点解读

近日,国际计算机视觉大会 ICCV(International Conference on Computer Vision)公布了 2023 年论文录用结果,本届会议共有 8068 篇投稿,接收率为26.8%。ICCV 是全球计算机领域顶级的学术会议,每两年召开一次,ICCV 2023 将于今年10月在法国巴黎举行。今年,旷视研究院 14 篇论文入选,涵盖纯视觉 3D 目标检测、多模态 3D 检测...

2023-08-07 15:03:56 1217

转载 招人啦!旷视 MegEagle 创视者计划启动!

2023-07-19 11:15:59 528

原创 旷视研究院获 NTIRE 2023 图像复原和增强赛事Efficient Super-Resolution赛道冠军

在最近结束的 NTIRE 2023 比赛中,旷视研究院在 Efficient Super-Resolution 赛道脱颖而出,击败 40 余支队伍,夺得全球冠军。这也是旷视连续第三年在 NTIRE 的图像超分辨率赛道上夺冠。NTIRE 比赛是国际级别的学术竞赛,聚焦于图像恢复和增强领域的最新趋势和技术。今年的比赛开设了多个赛道,吸引了来自全球各地的顶尖研究团队和公司参与,希望通过创新的方法和算法来...

2023-06-30 16:15:18 684

原创 旷视研究院获 CVPR 2023 自动驾驶国际挑战赛 OpenLane Topology 赛道冠军

近日,为期三个月的CVPR2023自动驾驶国际挑战赛比赛结果揭晓。旷视研究院在OpenLane Topology 赛道中击败 30 余支国内外队伍,夺得冠军。自动驾驶技术已经渗透到人们的日常生活中,但是传统的感知方法仍不能满足大家对 L5 级自动驾驶的追逐。CVPR 2023 自动驾驶国际挑战赛将自动驾驶技术分为对背景场景的理解、对前景物体的感知和对未来运动的规划三方面,并举办了四个不同赛道...

2023-06-20 14:42:43 2064

原创 MegEngine 使用小技巧:用 mperf 进行安卓 opencl 算子的 roofline 分析

前言roofline 分析是一种简单评估当前计算任务对当前平台计算/访存能力的利用情况的方法,可以帮助分析算子的优化方向和优化潜力。mperf 实现了安卓 mali/adreno 两种 gpu 平台的 roofline 分析能力,下面以 mali 平台为例,简单介绍一下操作步骤。编译和集成下载 repo 代码git clone https://github.com/MegEngine/mperf....

2023-06-05 17:09:23 892

原创 2023 开源之夏来啦!报名 MegEngine 项目,赢取万元奖金!

“开源软件供应链点亮计划-暑期2023”是一项面向高校学生的暑期活动,为高校学生提供了绝佳的、友好开放的交流平台。使学生可以真正投身于开源软件的开发维护,得到资深开源软件开发者指导的机会,获得丰硕的活动奖金,并帮助学生获取优秀企业的关注。活动流程同学们在6月4日之前在开源之夏官网(https://summer-ospp.ac.cn)挑选项目,与导师沟通并准备项目申请材料、提交申请。MegEngin...

2023-05-16 15:45:50 781

原创 安卓机上 4G 内存跑 Alpaca,欢迎试用轻量级 LLM 模型推理框架 InferLLM

从 LLM 火爆以来,社区已经出现了非常多优秀的模型,当然他们最大的特点就是体积大。最近为了让大模型可以在更低端的设备上运行,社区做了非常多的工作, gptq 实现了将模型进行低比特量化,因此降低了运行大模型对 CPU 内存、GPU 显存的要求,llama.cpp 实现了在本地 CPU/GPU 上就可以运行大模型,并且步骤非常简单,replit-code-v1-3b 用更小的模型实现了更智能的 c...

2023-05-10 15:47:50 1676

原创 MegEngine 工具链大盘点,让模型落地超 Easy!

在当今人工智能领域,深度学习算法已经广泛应用于图像处理、自然语言处理、语音识别等各种领域。然而,实现一个高效的深度学习算法需要运用大量的技术和工具,并要面临许多挑战,如训练计算资源消耗大,模型转换难,高效快捷的推理部署等。MegEngine 作为一个训推一体的深度学习框架,其生态工具集合了图像对比、模型转换、硬件性能优化、pipeline 搭建等多种功能,能够满足用户在多种场景下的需求,为算法的实...

2023-04-03 16:06:59 702

原创 CVPR 2023 | UniDistill: 在鸟瞰视角下统一的跨模态知识蒸馏框架

技术信仰 价值务实在使用自动驾驶 3D 目标检测算法时,你是否困扰于“既想也想”的问题?既想用单模态检测器以节省传感器成本,并且加快检测速度,也想获得其它模态的知识以得到更高的检测精度。为此,旷视研究院 AI 计算组提出了统一的跨模态知识蒸馏框架——UniDistill,它克服了传统知识蒸馏框架的缺陷,不仅支持多种模态组合的蒸馏路径,还能让单模态检测模型的性能大幅提升。下面带领大家感受一下这种全...

2023-03-29 15:43:29 1345

原创 CVPR 2023 | 旷视研究院入选论文亮点解读

近日,CVPR 2023 论文接收结果出炉。近年来,CVPR 的投稿数量持续增加,今年收到有效投稿 9155 篇,和 CVPR 2022 相比增加 12%,创历史新高。最终,大会收录论文 2360 篇,接收率为 25.78 %。本次,旷视研究院有 13 篇论文入选,涵盖3D 目标检测、多目标跟踪、模型压缩、知识蒸馏等多个领域。以下为入选论文简介 :????01VoxelNeXt:Fully Sparse...

2023-03-21 16:03:16 4500

转载 校招+实习 | 旷视研究院职位一览无余!

旷视研究院旷视研究院是旷视设立的公司级研究机构,是驱动整个公司技术创新的引擎。旷视研究院通过基础创新突破AI技术边界,以工程创新实现技术到产品的快速转化。经过多年发展,旷视研究院已成为全球规模领先的计算机视觉和人工智能研究院。目前,旷视研究院的科研成果包括AI生产力平台Brain++、开源深度学习框架旷视天元MegEngine、AI算法生产平台AI Service、移动端高效卷积神经网络Shuff...

2023-03-17 16:21:47 1002

原创 MegEngine使用小技巧:借助DataLoader获取分批数据

在使用MegEngine进行模型训练时,首先要进行的是数据加载和预处理。在此过程中,MegEngine中的megengine.data(https://www.megengine.org.cn/doc/stable/zh/reference/data.html#module-megengine.data)模块,提供了数据分批功能,其内部实现流程如下图:通过使用Dataloader,我们可以方便地对...

2023-03-14 10:33:17 676

原创 全球AI论文“高引用转化率”排名出炉,旷视位列国内第一,全球第二

全球每年上新的 AI 论文浩如烟海,哪些机构或国家(地区)发表的 AI 论文是最有影响力的?近日,美国 Zeta Alpha 平台基于 2020 年、2021 年和 2022 年每年被引用次数最多的 100 篇论文进行了多维度的详细分析。在已发表论文高引用量转化率的排名中,OpenAI 位列第一,旷视排名第二,DeepMind 获得第三。在 2022 年引用量 Top100 的名单中,旷视研究院 ...

2023-03-07 10:57:48 922

原创 mperf:移动/嵌入式平台算子性能调优利器

快速了解mperf在移动/嵌入式平台,为了最大程度发挥硬件算力,对算子极致性能的追求变成必然,不同于桌面/服务器平台,移动/嵌入式平台在算子性能调优方面可选择的工具很少。MegEngine 团队一直在探索什么样的工具能够在算子调优流程中带来助益,来帮助达成如下的算子性能调优反馈回路,这也是 mperf 诞生的背景。图1 算子性能调优反馈回路mperf 是一个微架构层次的算子性能调优工具箱,主要面向...

2023-03-02 17:00:45 850

原创 OccDepth:对标 Tesla Occupancy 的开源 3D 语义场景补全⽅法

开源代码: https://github.com/megvii-research/OccDepth论文链接:https://arxiv.org/abs/2302.13540一、背景在 2022 年的 Tesla AI Day 上, Tesla 将 Bev(鸟瞰图) 感知进⼀步升级,提出了基于 Occupancy Network 的感知⽅法。这种基于 Occupancy Grid Mapping ...

2023-02-28 10:30:51 950

转载 ICLR 2023 | RevCol:可逆的多 column 网络,大模型架构设计新范式

我们给神经网络架构增加了一个维度!自 ViT 时代到来之后,由一叠 blocks 堆起来构成的基础模型已经成为了广泛遵循的基础模型设计范式,一个神经网络的宏观架构由width宽度(channel 数)和 depth 深度(block 数)来决定。有没有想过,一个神经网络未必是一叠 blocks 组成的?可能是 2 叠,4 叠,或者…16 叠?介绍一下我们最新的工作“Reversible Colum...

2023-02-17 11:27:59 683

原创 AAAI 2023| 一即一切:轻松实现不同 NeRF 系列结构间的转换!

论文链接:https://arxiv.org/abs/2211.15977开源代码:https://github.com/megvii-research/AAAI2023-PVD一、导语神经辐射场 (NeRF[1])方法已被证明是一种有效的,高质量的 3D 场景表示,并支持诸如编辑,检索,导航等下游任务。目前多种结构都在争夺 NeRF 的核心表示,包括多层感知器 (MLP)、稀疏张量(sparse...

2023-02-10 10:01:12 873

转载 如何写一个深度学习编译器

编译器本质上是一种提高开发效率的工具,将高级语言转换为低级语言(通常是二进制机器码),使得程序员不需要徒手写二进制。转换过程中,首要任务是保证正确性,同时需要进行优化以提升程序的运行效率。传统意义上的编译器的输入通常是某种高级语言,输出是可执行程序。在实际工作中接触到了深度学习编译器开发,其设计思想与传统编译器非常类似,所以本文以深度学习编译器的开发、结合我们实际开发的深度学习编译器 MegCC ...

2023-01-10 17:52:01 766

原创 BaseDet: 走过开发的弯路

BaseDet 开源啦!该 repo 提供了一些经典的检测 SOTA 模型以及相关组件,欢迎大家按需取用~~GitHub:https://github.com/megvii-research/basedetMegStudio 使用示例:https://studio.brainpp.com/project/28826?name=BaseDet%E4%BD%BF%E7%94%A8%E7%A4%BA%E...

2022-12-19 15:45:30 471

原创 AAAI 2023| 旷视研究院入选论文亮点解读

近日,国际人工智能顶级会议 AAAI 2023 (Association for the Advancement of Artificial Intelligence)公布了录用结果。本届会议共收到来自全球的 8777 篇论文投稿,其中 1721 篇论文被录用,论文录用率为 19.6%。AAAI 是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,...

2022-12-02 15:36:58 2407

转载 Awesome MegEngineer 英雄招募帖,开源社区专属权益等你来领

MegEngine 社区优秀贡献者荣誉体系 —— “Awesome MegEngineer“上线啦!诚邀同样热爱开源的你加入!什么是 “Awesome MegEngineer”Awesome MegEngineer是 MegEngine 社区中有突出成就的贡献者。他们中有熟练掌握 MegEngine 打比赛技能的多项 AI 竞赛获奖者;有凭一己之力扛起 MegFlow 项目布道重任的开源推广大使...

2022-11-17 15:44:16 260

原创 AI 模型编译器 MegCC 开源,让推理引擎体积变小小小小小……

目前社区中存在着不少个移动端深度学习推理框架(比如NCNN、MNN),它们为社区用户在移动端部署深度学习提供了相当多的便利,但是这些推理框架有一个共性问题:随着不断迭代以及性能优化,运行时库会逐渐增大,尤其是不同算子 fuse 时,会导致大量长尾算子,使 App 或 SDK 体积变得尾大不掉。为了解决这个问题,由 MegEngine 团队开源的 MegCC 创新性地使用模型预编译方案,生成模型推理...

2022-11-07 15:20:18 878

转载 MegLab小程序上新,快来挑战下AI画师的真实水平!

//MegLab小程序上新啦!为了方便大家在手机端体验当下最新、最潮流、最有趣的AI 模型和应用,我们在 MegLab 小程序中新增潮流前线板块。上线的首个应用是最近火热的AI 文本转图像功能!今年 9 月,Stability AI 对外发布了Stable Diffusion 的预训练模型权重,这是一个文本转图像的 AI 生成模型。输入关键词描述,AI 即可生成相应的图片结果,其惊艳的...

2022-11-04 10:12:31 468

转载 旷视研究院获得 ECCV SSLAD 双赛道冠军

近日,第二届 SSLAD(Self-supervised Learning for Next-Generation Industry-level Autonomous Driving) 2022 Workshop&Challenge 在 ECCV 2022 上举行。SSLAD workshop 致力于解决目前自动驾驶领域全监督学习模型训练过程中需要大量有标注数据的问题,促进学术界和工业界对...

2022-10-28 11:25:22 673

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除