未来的多模态数字人应当具备类似人的看、听、说和知识逻辑的能力,在人工智能更像人这个进程中更进一步。
本文为追一科技联合创始人、CTO刘云峰博士在腾讯5G+AI论坛演讲《多模态数字人,5G时代下的人机交互》整理摘要内容
在传统的AI认知中,视觉领域人脸识别、行为检测,语音领域语音识别和语音合成,自然语言领域人机对话,都有众多成功应用。这些领域之前是独立演进的技术和应用,可以认为是单模态技术,不同的模态形式分别描述同一个对象在不同角度下的特征。人工智能是对人的模仿和学习,而人是一个看、听、说多模态共同工作的智能体,所以多模态技术是未来人工智能应用发展的方向。