跨媒体分析与推理
国务院关于印发新一代人工智能发展规划的通知:
1. 什么是跨媒体分析与推理?
媒体在计算机领域有两种含义:一是指媒介,即存储信息的实体,如磁盘、光盘、磁带、半导体存储器等;二是指传递信息的载体,如数字、文字、声音、图形、图像等。
以往的媒体信息处理模型往往只针对某种单一形式的媒体数据进行推理分析,比如图像识别、语音识别、文本识别等。 而越来越多的任务需要像人一样能够协同综合处理多种形式(文本、音频、视频、图像等)的信息,这就是跨媒体分析与推理。
跨媒体既表现为包括网络文本、图像、音频、视频等复杂媒体对象混合并存,又表现为各类媒体对象形成复杂的关联关系和组织结构,还表现在具有不同模态的媒体对象跨越媒介或平台高度交互融合。通过“跨媒体”能从各自的侧面表达相同的语义信息,能比单一的媒体对象及其特定的模态更加全面地反映特定的内容信息。相同的内容信息跨越各类媒体对象交叉传播与整合,只有对这些多模态媒体进行融合分析,才能尽可能全面、正确地理解这种跨媒体综合体所蕴涵的内容信息。
跨媒体是一个比较广义的概念,主要包括以下几个研究范畴:
- 1)跨媒体检索
用户向计算机提交一种类型的多媒体对象作为查询例子,系统可以自动找到其他不同类型、在语义上相似的多媒体对象。虽然不同类型的多媒体对象之间没有直接的可比性,如一幅山水画和一段描述小河流水声的音频在底层内容特征上彼此异构,但却可以用机器学习、统计分析等方法学习二者在统计意义上潜在的相关性,并以此为依据进行跨媒体检索。
- 2)跨媒体推理
推理是指从一个命题合理演绎到另一个命题,跨媒体推理就是从一种类型的多媒体数据,经过问题求解,转向另一种类型的多媒体数据。例如,OCR(Optical Character Recognition)技术是从图