面向推荐的汽车知识图谱构建

本文详述了汽车知识图谱的构建流程和技术挑战,包括本体设计、知识获取与入库,以及图谱查询服务等内容。同时介绍了图谱在推荐系统中的应用,如解决冷启动问题、生成推荐理由及提升推荐排序准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 背景

1 引言

知识图谱的概念,最早由 Google 在2012 年提出, 旨在实现更智能的搜索引擎,并在2013年之后开始在学术界和工业级普及。目前,随着人工智能技术的高速发展,知识图谱已广泛应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人等多个领域。

2 发展现状

知识图谱作为人工智能的核心技术驱动力,能缓解深度学习依赖海量训练数据、大规模算力的问题,它能够广泛适配不同的下游任务,且具有良好的解释性,因此,全球大型互联网公司都在积极部署本企业的知识图谱。
例如2013年Facebook发布Open Graph,应用于社交网络智能搜索;2014年百度推出的知识图谱,主要应用于搜索、助理、及toB商业场景;2015年阿里推出的商品知识图谱,在前端导购、平台治理和智能问答等业务上起到关键作用;腾讯于17年推出的腾讯云知识图谱,有效助力于金融搜索、实体风险预测等场景;美团于2018年推出的美团大脑知识图谱,已经在智能搜索推荐、智能商户运营等多个业务中落地。
在这里插入图片描述

3 目标及收益

目前领域图谱主要集中在电商、医疗、金融等商业领域,而关于汽车知识的语义网络及知识图谱构建缺少系统性的指导方法。本文以汽车领域知识为例,围绕车系、车型、经销商、厂商、品牌等实体及相互关系,提供一种从零搭建领域图谱的思路,并对搭建知识图谱中的步骤及方法进行了详细说明,以及介绍了基于本图谱的几个典型落地应用。
其中,数据源采用汽车之家网站,汽车之家是由导购、资讯、评测、口碑等多个板块组成的汽车服务类平台,在看、买、用等维度积累了大量的汽车数据,通过构建知识图谱把以汽车为核心的内容进行组织和挖掘,提供丰富的知识信息,结构化精准刻画兴趣,支持推荐用户冷启、召回、排序、展示等多个维度,给业务提升带来效果。

二 图谱构建

1 构建的挑战

知识图谱是真实世界的语义表示,,其基本组成单位是【实体-关系-实体】,【实体-属性-属性值】的三元组(Triplet),实体之间通过关系相互联结,从而构成语义网络。图谱构建中会面临较大的挑战,但构建之后,可在数据分析、推荐计算、可解释性等多个场景展现出丰富的应用价值。
构建挑战:

  • schema难定义:目前尚无统一成熟的本体构建流程,且特定领域本体定义通常需专家参与;
  • 数据类型异构:通常情况下,一个知识图谱构建中面对的数据源不会是单一类型,包含结构化、半结构化,及非结构化数据,面对结构各异的数据,知识转模及挖掘的难度较高;
  • 依赖专业知识:领域知识图谱通常依赖较强的专业知识,例如车型对应的维修方法,涉及机械、电工、材料、力学等多个领域知识,且此类关系对于准确度的要求较高,需要保证知识足够正确,因此也需要较好的专家和算法相结合的方式来进行高效的图谱构建;
  • 数据质量无保证:挖掘或抽取信息需要知识融合或人工校验,才能作为知识助力下游应用。
  • 收益:
  • 知识图谱统一知识表示:通过整合多源异构数据,形成统一视图;
  • 语义信息丰富:通过关系推理可以发现新关系边,获得更丰富的语义信息;
  • 可解释性强:显式的推理路径对比深度学习结果具有更强的解释性;
  • 高质量且能不断积累:根据业务场景设计合理的知识存储方案,实现知识更新和累积。

2 图谱架构设计

技术架构主要分为构建层、存储层及应用层三大层,架构图如下:

  • 构建层:包括schema定义,结构化数据转模,非结构化数据挖掘,以及知识融合;
  • 存储层:包括知识的存储和索引,知识更新,元数据管理,以及支持基本的知识查询;
  • 服务层:包括智能推理、结构化查询等业务相关的下游应用层。
    在这里插入图片描述

3 具体构建步骤及流程

依据架构图,具体构建流程可分为四步:本体设计、知识获取、知识入库,以及应用服务设计及使用。

3.1 本体构建

本体(Ontology)是公认的概念集合,本体的构建是指依据本体的定义,构建出知识图谱的本体结构和知识框架。
基于本体构建图谱的原因主要有以下几点:

  • 明确专业术语、关系及其领域公理,当一条数据必须满足Schema预先定义好的实体对象和类型后,才允许被更新到知识图谱中。
  • 将领域知识与操作性知识分离,通过Schema可以宏观了解图谱架构及相关定义,无须再从三元组中归纳整理。
  • 实现一定程度的领域知识复用。在构建本体之前,可以先调研是否有相关本体已经被构建出来了,这样可以基于已有本体进行改进和扩展,达到事半功倍的效果。
  • 基于本体的定义,可以避免图谱与应用脱节,或者修改图谱schema比重新构建成本还要高的情况。例如将“宝马x3”、“2022款宝马x3”都作为汽车类实体来储存,在应用时都可能造成实例关系混乱、可用性差的问题,这种情况可以在设本体计阶段,通过将“汽车类实体”进行“车系”、“车型”子类细分的方法来避免。

按照知识的覆盖面来看,知识图谱可以划分为通用知识图谱和领域知识图谱,目前通用知识图谱已有较多案例,例如Google的Knowledge Graph、微软的Satori和Probase等,领域图谱则为金融、电商等具体行业图谱。通用图谱更注重广度,强调融合更多的实体数量,但对精确度的要求不高,很难借助本体库对公理、规则及约束条件进行推理和使用;而领域图谱的知识覆盖范围较小,但知识深度更深ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值