多模态语义分析_基于知识图谱的语义理解技术及应用

本文介绍了百度基于知识图谱的多模态语义理解技术,包括文本和视频的深度理解。知识图谱在文本理解中通过实体标注、概念化进行全方位解析,而在视频理解中构建视频理解图谱,进行多模态融合与计算推理,以实现深度语义理解。这些技术在百度的搜索、推荐和智能交互等业务中发挥关键作用。
摘要由CSDN通过智能技术生成

26cd98abbb8242d44e28b37d3100749c.png

导读:知识图谱在人工智能应用中的重要价值日益突显。百度构建了超大规模的通用知识图谱,并在搜索、推荐、智能交互等多项产品中广泛应用。同时,随着文本、语音、视觉等智能技术的不断深入,知识图谱在复杂知识表示、多模语义理解技术与应用等方面都面临新的挑战与机遇。本文将介绍百度基于知识图谱,从文本到多模态内容的理解技术及应用的最新进展。

本文主要内容包括:

  • 背景
  • 知识图谱文本语义理解
  • 知识图谱视频语义理解
  • 总结

01

背景

1. 多模语义理解需求强烈

db410ee6b66d1476f824fb6d7d80584d.png

多模语义理解需求强烈。对于百度而言就有很多视频产品,比如信息流、全民小视频、爱奇艺等等,对应长视频、短视频、小视频等,这类视频的深度理解对于公司的视频业务,是非常核心的基础技术。

2. 深度语义理解需要知识

c4172a189ea88fdfe801f3f91c89b248.png

在实际应用场景中,我们发现要实现视频的深度语义理解,在纯感知技术的基础上,知识发挥着重要的价值。比如上面的短视频片段,从内容理解来看,传统的视频理解更多是基于感知,比如通过人脸识别和从OCR识别出关键词/字。在实际场景中我们发现这些效果上还有较大优化空间,同时,这样识别出的结果没有刻画出用户对视频核心的细粒度兴趣,比如影视剧的角色、关系等知识。但是基于知识图谱的语义理解就可以解决这类的问题,它能够对视频做深度结构化的解析,然后上层的推荐、搜索可以应用这些知识作为特征辅助内容的高效分发。

3. 目标与价值

根据上面描述,我们的目标是基于知识图谱对用户/资源从多维度进行知识增强的语义分析,协助提供上层智能应用所需语义计算与推理能力。相比传统的理解,它的价值有两个方面:一是它可以真正理解资源背后的知识;二是它可以基于知识图谱进行计算和推理。

02

知识图谱文本语义理解

1. 知识增强的多维度语义分析

4d9364b21ba02e5023d26674943a5bbc.png

不同于传统的文本语义理解,我们的知识图谱文本语义理解是对文本从实体、概念、关系的知识维度去做全方位的解析,协助提供应用所需语义知识。首先对文本进行实体类的标注,然后将实体关联到知识图谱,这样通过关联关系以及知识图谱获取实体对应信息;其次进行概念化,理解实体背后的知识;最后会理解实体之间的关系,包括实体的属性、侧面等。通过建立知识图谱的文本语义理解,会有三方面的技术特点:语义消歧、可计算推理和可泛化解释。

2. 多种文本形态与业务场景下,诸多挑战

c8a09fe6abf37f5e748652898439364c.png

在实际的场景之下,我们会

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值