阿里云达摩院视觉AI介绍

最新推荐文章于 2024-03-03 09:00:00 发布

请叫我孙善良

最新推荐文章于 2024-03-03 09:00:00 发布

阅读量2k

点赞数

分类专栏：阿里云ECS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qjwssl/article/details/115197790

版权

阿里云达摩院视觉实验室专注于图像、视频的感知、理解与生成技术，涵盖视觉理解、视频挖掘、三维视觉、文字识别等领域，研发了一系列产品和应用，广泛应用于新零售、新媒体、新制造等场景。实验室在图像搜索、三维视觉端云产品、虚拟人技术以及多媒体AI解决方案等方面取得显著成果，服务于电商、教育、房地产等多个行业。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

视觉实验室

致力于图像、视频的感知、理解、生成、处理等技术研发与应用，以及三维场景、物体的重建、生成技术的探索和应用。构建以图像视频为媒介的产品和应用，在互动娱乐、数智教育、线下智能等多个方向创造商业新机会，广泛应用于新零售、新媒体、新制造等领域。

研究方向

视觉理解&互动视觉

研发基于视觉（图像/视频）的分类、目标检测跟踪、分割、特征表示学习、关键点提取、人体姿态估计、手势识别、图像描述生成、大规模分布式训练引擎等基础技术，解决电商，通用视觉应用场景下，商品、人体的理解与互动等问题。

视频理解与挖掘

研发视频标签、视频搜索、视频目标检测、视频生成等基础技术，解决在海量视频中进行高效稳定的视频审核、搜索和编辑等问题。

三维视觉

研发三维建模、三维感知、三维理解和三维交互等基础技术，解决端上建模、测量问题和提升AR/VR体验。

文字识别

研发图像视频中的文字检测、文字识别与结构理解等核心技术，解决在扫描、实拍、多语言、混贴等复杂场景下的文字识别与信息抽取。

图文理解

研发图文互搜、图文共搜、价格预估等跨媒体内容理解的核心技术，解决跨媒体内容理解与分析等问题。

线下智能

研究端上和边缘侧的各种视觉处理和结构化方案，包括目标检测，目标分割，多目标跟踪，目标识别（包含行人/机动车重识别，人脸识别等），目标属性提取，行为动作分析等算法，面向遥感影像和X光影像的数据处理，变化检测，地物分类等，以及面向低功耗高效率的深度网络的优化方法，例如模型压缩，推理加速，网络结构搜索等。

底层视觉

研发low-level vision涉及的各种视觉技术，包括图像/视频的修复、增强、去噪等，为后面的视觉分析和理解进行预处理。此外，还研发图像的编辑、生成等技术，为用户更好的体验、互动进行服务。

产品及应用

拍立淘和图像搜索云产品

研发了业界领先的图像搜索与识别技术，并应用于多种场景。每天有超过1700万人通过淘宝和天猫使用拍立淘的以图搜图功能。基于阿里云平台，研发了图像搜索云产品，为具有海量图像搜索需求的客户（如电商、相册、图库类网站）提供完整的以图搜图解决方案。目前已经有若干海外和国内用户，比如澳洲和新西兰领先的时尚和运动零售商THE ICONIC。

了解更多
三维视觉端云产品

通过三维视觉和计算机图形学技术，为行业提供数字化和智能化的解决方案，和生态伙伴共建云+端的技术产品。目前在鞋履产业，通过高效精确的三维扫描和搜索匹配算法，实现精准鞋款推荐、精准营销和精准制造。在房产市场，提供低成本，使用方便、自动化效率高，纹理真实的三维室内、室外场景重建和全景导览功能。在电商平台上，通过AR/VR技术提供给消费者即试即买的沉浸式购物体验，提升销售效率和成交率。

了解更多
虚拟人

通过整合研发图形图像语音技术，目前拥有2D仿真人，3D

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

请叫我孙善良 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。