近年来,人工智能(AI)技术在多个领域落地并不断取得发展与突破。在互联网的推动下,AI语音助理、智能家居、眼镜相机等产品相继推出,打造了更加便捷的生活体验。
秉承着“技术为本”的理念,小米始终致力于前沿技术的探索。2016年,小米正式成立AI实验室,覆盖计算机视觉、语音声学、自然语言处理(NLP)、知识图谱、机器学习等多个研究方向。曾获百万美金技术大奖的Cyberdog铁蛋仿生机器人就融入了计算机视觉、自然语言处理和声学语音等多项AI技术。
那么,什么是视觉AI技术呢?小米的AI技术又有哪些新进展?让我们跟随小米AI实验室主任王斌、声学语音技术总监王育军、语音首席科学家 Daniel Povey一起走进AI技术。
01
AI视觉
AI视觉主要研究方向包括图像、视频的处理和理解,人脸、人体算法等。小米技术团队重点研究了手机相机的基础画质算法、图像视频的智能编辑、识别和理解。
1 硬核算法,助力手机影像
近年来,小米AI实验室陆续为小米手机贡献了HDR、超级夜景、万物追焦、AI相机、单摄人像模式、美颜、人脸解锁、人脸相册、魔法换天、智能挑片、照片文字搜索等多个重点功能的核心算法。这些算法为相机系统架构“小米影像大脑”提供了强有力的技术支撑,其中,HDR、人像超清、边缘画质提升等技术曾助力小米手机3次登顶DXO。
“超越人眼,感知人心”是小米提出的全新影像理念,让用户通过快门记录每个感动人心的瞬间是小米一直以来的愿景,而AI使这变得更加容易。例如,打开相机后,AI场景检测就会判断用户所处的场景是白天还是夜晚,室内还是室外。按下快门,HDR、超级夜景等算法会通过不同参数智能化地对当前场景进行处理,进而拍摄出适宜的动态范围、明暗对比强烈且细节细腻的照片。在小米全新影像理念背景下,HDR、超级夜景、AI场景检测等算法助力徕卡双画质,在手机上赋予用户单反级相机的影像体验。
基于计算机视觉技术打造的“万物追焦”功能可以自动识别和聚焦人、猫、狗等动物,并针对不同拍摄距离进行焦点实时跟踪,随手一拍都清晰。“万物追焦2.0”在追焦1.0的基础上进行了大量功能更新,加入动物、花朵等多类目标的精准识别对焦,目前已在 Xiaomi 13系列、Redmi K60系列落地。
2 所见即所得,高效办公“神器”
为普通用户带来更好的科技体验与便捷应用,实现“科技向善”,是小米视觉的技术愿景之一。除了影像画质,AI视觉还涵盖了多种实用功能。基于深入的用户调研,泛文档类对象是小米用户的核心拍照场景之一,通过前沿的对抗生成网络技术、三维模拟建模等AI技术,小米视觉逐渐落地了包括超级文档、AI去影、畸变恢复、手写消除、终端实时文字提取、表格识别等多个功能。
值得一提的是,终端实时文字提取、表格识别、手写消除等多项功能,最近在小米新系列机型先后上线,提升了小米手机商务应用方向的产品竞争力。其中,表格识别技术一经推出,就成为了日常办公中的“神器”