多模态语义分析_基于知识图谱的语义理解技术及应用

最新推荐文章于 2024-03-27 18:38:33 发布

蔡振原

最新推荐文章于 2024-03-27 18:38:33 发布

阅读量1.6k

点赞数

文章标签：多模态语义分析

本文链接：https://blog.csdn.net/weixin_28826521/article/details/112190660

版权

本文介绍了百度基于知识图谱的多模态语义理解技术，包括文本和视频的深度理解。知识图谱在文本理解中通过实体标注、概念化进行全方位解析，而在视频理解中构建视频理解图谱，进行多模态融合与计算推理，以实现深度语义理解。这些技术在百度的搜索、推荐和智能交互等业务中发挥关键作用。

摘要由CSDN通过智能技术生成

导读：知识图谱在人工智能应用中的重要价值日益突显。百度构建了超大规模的通用知识图谱，并在搜索、推荐、智能交互等多项产品中广泛应用。同时，随着文本、语音、视觉等智能技术的不断深入，知识图谱在复杂知识表示、多模语义理解技术与应用等方面都面临新的挑战与机遇。本文将介绍百度基于知识图谱，从文本到多模态内容的理解技术及应用的最新进展。

本文主要内容包括：

背景
知识图谱文本语义理解
知识图谱视频语义理解
总结

01 ▬

背景

1. 多模语义理解需求强烈

多模语义理解需求强烈。对于百度而言就有很多视频产品，比如信息流、全民小视频、爱奇艺等等，对应长视频、短视频、小视频等，这类视频的深度理解对于公司的视频业务，是非常核心的基础技术。

2. 深度语义理解需要知识

在实际应用场景中，我们发现要实现视频的深度语义理解，在纯感知技术的基础上，知识发挥着重要的价值。比如上面的短视频片段，从内容理解来看，传统的视频理解更多是基于感知，比如通过人脸识别和从OCR识别出关键词/字。在实际场景中我们发现这些效果上还有较大优化空间，同时，这样识别出的结果没有刻画出用户对视频核心的细粒度兴趣，比如影视剧的角色、关系等知识。但是基于知识图谱的语义理解就可以解决这类的问题，它能够对视频做深度结构化的解析，然后上层的推荐、搜索可以应用这些知识作为特征辅助内容的高效分发。

3. 目标与价值

根据上面描述，我们的目标是基于知识图谱对用户/资源从多维度进行知识增强的语义分析，协助提供上层智能应用所需语义计算与推理能力。相比传统的理解，它的价值有两个方面：一是它可以真正理解资源背后的知识；二是它可以基于知识图谱进行计算和推理。

02 ▬

知识图谱文本语义理解

1. 知识增强的多维度语义分析

不同于传统的文本语义理解，我们的知识图谱文本语义理解是对文本从实体、概念、关系的知识维度去做全方位的解析，协助提供应用所需语义知识。首先对文本进行实体类的标注，然后将实体关联到知识图谱，这样通过关联关系以及知识图谱获取实体对应信息；其次进行概念化，理解实体背后的知识；最后会理解实体之间的关系，包括实体的属性、侧面等。通过建立知识图谱的文本语义理解，会有三方面的技术特点：语义消歧、可计算推理和可泛化解释。

2. 多种文本形态与业务场景下，诸多挑战