视觉实验室
致力于图像、视频的感知、理解、生成、处理等技术研发与应用,以及三维场景、物体的重建、生成技术的探索和应用。构建以图像视频为媒介的产品和应用,在互动娱乐、数智教育、线下智能等多个方向创造商业新机会,广泛应用于新零售、新媒体、新制造等领域。
研究方向
- 视觉理解&互动视觉
研发基于视觉(图像/视频)的分类、目标检测跟踪、分割、特征表示学习、关键点提取、人体姿态估计、手势识别、图像描述生成、大规模分布式训练引擎等基础技术,解决电商,通用视觉应用场景下,商品、人体的理解与互动等问题。
- 视频理解与挖掘
研发视频标签、视频搜索、视频目标检测、视频生成等基础技术,解决在海量视频中进行高效稳定的视频审核、搜索和编辑等问题。
- 三维视觉
研发三维建模、三维感知、三维理解和三维交互等基础技术,解决端上建模、测量问题和提升AR/VR体验。
- 文字识别
研发图像视频中的文字检测、文字识别与结构理解等核心技术,解决在扫描、实拍、多语言、混贴等复杂场景下的文字识别与信息抽取。
- 图文理解
研发图文互搜、图文共搜、价格预估等跨媒体内容理解的核心技术,解决跨媒体内容理解与分析等问题。
- 线下智能
研究端上和边缘侧的各种视觉处理和结构化方案,包括目标检测,目标分割,多目标跟踪,目标识别(包含行人/机动车重识别,人脸识别等),目标属性提取,行为动作分析等算法,面向遥感影像和X光影像的数据处理,变化检测,地物分类等,以及面向低功耗高效率的深度网络的优化方法,例如模型压缩,推理加速,网络结构搜索等。
- 底层视觉
研发low-level vision涉及的各种视觉技术,包括图像/视频的修复、增强、去噪等,为后面的视觉分析和理解进行预处理。此外,还研发图像的编辑、生成等技术,为用户更好的体验、互动进行服务。
产品及应用
拍立淘和图像搜索云产品
研发了业界领先的图像搜索与识别技术,并应用于多种场景。每天有超过1700万人通过淘宝和天猫使用拍立淘的以图搜图功能。基于阿里云平台,研发了图像搜索云产品,为具有海量图像搜索需求的客户(如电商、相册、图库类网站)提供完整的以图搜图解决方案。目前已经有若干海外和国内用户,比如澳洲和新西兰领先的时尚和运动零售商THE ICONIC。
三维视觉端云产品
通过三维视觉和计算机图形学技术,为行业提供数字化和智能化的解决方案,和生态伙伴共建云+端的技术产品。目前在鞋履产业,通过高效精确的三维扫描和搜索匹配算法,实现精准鞋款推荐、精准营销和精准制造。在房产市场,提供低成本,使用方便、自动化效率高,纹理真实的三维室内、室外场景重建和全景导览功能。在电商平台上,通过AR/VR技术提供给消费者即试即买的沉浸式购物体验,提升销售效率和成交率。
-
虚拟人
通过整合研发图形图像语音技术,目前拥有2D仿真人,3D