英国查尔斯王子迎娶卡米拉时,读唇者成功破解了伊丽莎白二世与儿子的低语,让女王糟糕的婆媳关系浮现在大众眼前 —— 这可能是“唇语识别”第一次大面积走进大众的视野。
什么是唇语识别
所谓的“唇语识别”,其实并不神秘。
早在古代,就有专门的唇语师存在。通过长期的训练,他们具备了“观察别人的嘴型,解读其表达语句”的能力。在现代社会里,一些听力障碍者们也会使用这种技巧与他人进行交谈,补充听力器官的不足。
但随着科技的发展,人工智能在各领域渐次开放,在唇语识别上,机器已经做的比人类好了。
从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。
要理解这个“唇语识别”,需要注意这几个关键词:
运用机器视觉技术从图像中识别出说话人的人脸,提取此人连续说话时口型变化的特征。
将连续变化的特征输入到唇语识别模型中,识别说话人口型对应的发音,运用大数据计算出可能性最大的自然语言语句。
图中字幕是由谷歌AI通过唇读实时同步输出,语速之快,难度之大。
在唇语识别过程中,口型与发音,发音与文字之间,并不是唯一对应的关系,常常有多个可能的备选结果,需要实时计算出可能性最大的结果。
唇语识别的研究现状
早在 2003 年,Intel 就开发了唇语识别软件 Audio Visual Speech Recognition(AVSR)&