微软释出了Pix2story,让用户只要指定图片,人工智能就能看图说故事。微软提到,他们试图教导人工智能创意,试图将人工智能发展至另一个层次,而在Pix2story中,他们让人工智能发挥创意结合特定类型产生故事。微软提到,说故事是人的天性之一,在写作被发明之前,人们就透过讲故事分享价值观,而编写故事并非一件简单的事,特别如果是光靠看图片,并以各类艺术类型(Genre)写出故事。自然语言处理技术发展至今,是作为推动计算机与人类互动革新的领域,微软试着让自然语言处理能以更自然和更聚焦的方式叙事。
微软在Azure上开发了Pix2Story,这是一个应用类神经网络的网页应用程序,用户只要选择图片,Pix2Story就会发挥创意为该张照片编写出一小段冒险、科幻和惊悚类型风格的故事。而该系统的架构设计,首先要从上传的照片取得图说,并将这些图说输入至递归神经网络(Recurrent Neural Network)模型,根据图片以及文体产生故事。产生输入照片图说的方法,微软以MS COCO图说数据集的30万张图片,训练了视觉语意嵌入模型,对上传的图像进行分析和产生的图说。视觉语义嵌入负责将输入的图片转换成图说,这部分包含两个模型,第一个是卷积神经网络,用于萃取称为注释向量的特征向量。第二个模型则是长期短期记忆(Long Short-Term Memory