导读:知识图谱在人工智能应用中的重要价值日益突显。百度构建了超大规模的通用知识图谱,并在搜索、推荐、智能交互等多项产品中广泛应用。同时,随着文本、语音、视觉等智能技术的不断深入,知识图谱在复杂知识表示、多模语义理解技术与应用等方面都面临新的挑战与机遇。本文将介绍百度基于知识图谱,从文本到多模态内容的理解技术及应用的最新进展。
本文主要内容包括:
- 背景
- 知识图谱文本语义理解
- 知识图谱视频语义理解
- 总结
01
▬
背景
1. 多模语义理解需求强烈
多模语义理解需求强烈。对于百度而言就有很多视频产品,比如信息流、全民小视频、爱奇艺等等,对应长视频、短视频、小视频等,这类视频的深度理解对于公司的视频业务,是非常核心的基础技术。
2. 深度语义理解需要知识
在实际应用场景中,我们发现要实现视频的深度语义理解,在纯感知技术的基础上,知识发挥着重要的价值。比如上面的短视频片段,从内容理解来看,传统的视频理解更多是基于感知,比如通过人脸识别和从OCR识别出关键词/字。在实际场景中我们发现这些效果上还有较大优化空间,同时,这样识别出的结果没有刻画出用户对视频核心的细粒度兴趣,比如影视剧的角色、关系等知识。但是基于知识图谱的语义理解就可以解决这类的问题,它能够对视频做深度结构化的解析,然后上层的推荐、搜索可以应用这些知识作为特征辅助内容的高效分发。
3. 目标与价值
根据上面描述,我们的目标是基于知识图谱对用户/资源从多维度进行知识增强的语义分析,协助提供上层智能应用所需语义计算与推理能力。相比传统的理解,它的价值有两个方面:一是它可以真正理解资源背后的知识;二是它可以基于知识图谱进行计算和推理。
02
▬
知识图谱文本语义理解
1. 知识增强的多维度语义分析
不同于传统的文本语义理解,我们的知识图谱文本语义理解是对文本从实体、概念、关系的知识维度去做全方位的解析,协助提供应用所需语义知识。首先对文本进行实体类的标注,然后将实体关联到知识图谱,这样通过关联关系以及知识图谱获取实体对应信息;其次进行概念化,理解实体背后的知识;最后会理解实体之间的关系,包括实体的属性、侧面等。通过建立知识图谱的文本语义理解,会有三方面的技术特点:语义消歧、可计算推理和可泛化解释。
2. 多种文本形态与业务场景下,诸多挑战
在实际的场景之下,我们会