第12章 图像与语音的结合
斯坦福大学人工智能实验室的李飞飞教授在2017年极客大会上曾经讲过,实现人工智能要有3个要素:语法(syntax)、语义(semantics)和推理(inference),如图12-1所示。
图12-1
语言和视觉是人工智能界非常关注的点,也就是说,在语言和视觉层面,通过语法(对语言来说是语法解析,对视觉来说是三维结构的解析)和语义(对语言来说是语义,对视觉来说是物体动作的含义)作为模型的输入训练数据,最终实现推理的能力,也就是把训练中学习到的能力应用到工作中去,从新的数据中推断出结论。[1]
12.1 看图说话模型
将图像和语言融合,就是“看图说话”。看图说话的目标是,输入一张图片,希望我们训练的看图说话模型能够根据图像给出描述图像内容的自然语言,讲出一个故事。这是一个很大的挑战,