I. 知识图谱应用案例

最新推荐文章于 2025-03-26 20:58:04 发布

micklongen

最新推荐文章于 2025-03-26 20:58:04 发布

阅读量4.6k

点赞数 1

分类专栏： # 知识图谱文章标签：知识图谱人工智能

本文链接：https://blog.csdn.net/micklongen/article/details/111773656

版权

知识图谱专栏收录该内容

19 篇文章

订阅专栏

I. 知识图谱应用案例

电商知识图谱的构建与应用

业务背景
- 复杂购物场景：新零售、多语言、线上线下相结合
- 电商交易逐渐转变为集B2C、B2B、跨境为一体，覆盖“实物+虚拟”商品，结合跨领域搜索发现、导购、交互多功能的新型电商交易
与通用知识图谱的区别
- 首先，电商知识图谱的核心是商品。整个商业活动中由品牌商、平台运营、消费者、国家机构、物流商等多角色参与。相对于网页来说，数据的产生、加工、使用、反馈控制得更加严格，约束性更强。
- 其次，电商数据的结构化程度相对于通用领域来说做的更好。
- 再次，面向不同的消费者和细分市场，不同角色、不同市场、不同平台对商品描述的侧重都不同，使得对同一个实体描述时会有不同的定义。知识融合就变得非常重要。
- 最后，与通用知识图谱相比较而言，电商知识图谱有大量的大量的国家标准、行业规则、法律法规对商品描述进行着约束。存在大量的人的经验来描述商品做大跟消费者需求的匹配，知识推理显得更为重要。
案例 — 阿里巴巴
- 思路：以商品为核心，以人、货、场为主要框架
  - 目前共涉及9大类一级本体和27大类二级本体
    - 一级本体：人、货、场、百科知识、行业竞争对手、品质、类目、资质和舆情
    - 人、货、场构成了商品信息流通的闭环，其他本体主要给予商品更丰富的信息描述
    - 目前有百亿级的节点和百亿级的关系边
- 数据来源
  - 主要是知识众包，其中关键就是知识图谱本体设计。
    - 在设计上要考虑商品本身，又要考虑消费者需求和便于平台运营管理
    - 另一个核心工作是要开发面向电商各种角色的数据采集工具，例如面向卖家的商品发布端
  - 另一个来源是文本数据，例如商品标题、图片、详情、评价、舆情中的品牌、型号、卖点、场景等信息。这就要求命名识别系统具有跨越大规模实体类型的识别能力，能够支持电商域数据、人机语言交互自然语言问题以及更广泛的微博、新闻等舆情域数据的识别，并且把识别出的实体与知识图谱链接，特别是商品属性和属性值涉及上千类别的实体类型。主要包括：
    - 商品域：类目、产品词、品牌、商品属性、属性值、标准产品。
    - LBS域：小区、超市、商场、写字楼、公司。
    - 通用域：任务、数字、时间。
  - 对知识图谱实体描述，除了基础的属性和属性值，很多是通过实体标签来实现的。相对来说，标签变化快，易扩展。很大一部分这类知识是通过推理获得的。例如，在食品标签生成中，知识推理通过食品的配料表数据和国家行业标准，如：
    - 无糖；
    - 无盐

图情知识图谱的构建与应用

业务背景
- 聚焦某一个特定细分行业，以整合行业内屠屏资源为目标的知识图谱
- 提供知识搜索、指示标引、决策支持等形态的知识应用，服务于行业内的从业人员、科研机构及行业决策者
思路
- 一般采用自顶向下的方式进行知识建模，通常从资源型数据入手，整理出资源的发表者、发表机构、关键词、发表载体等类型的实体及各自之间的关系，同时通过人物、机构的主页进行实体属性的扩充。
数据源主要包括：
- 第一类：知网、专利局等文献类网站
- 第二类：开放通用数据，包括百科类网站以及DBpedia等开发链接数据集
- 第三类：行业垂直的新闻门户
- 第四类：行业内企业和科研机构积累的既有数据

生活娱乐知识图谱的构建与应用：以美团为例

业务背景
- 知识图谱能够打破不同场景下的数据隔离
- 美团点评作为在线本体生活服务平台，覆盖了餐饮娱乐领域的众多生活场景，连接了数亿个用户和数千万家商店，积累了宝贵的业务数据，蕴含着丰富的日常生活相关的知识。
数据来源
- 原始数据
  - 美团点评积累了40亿的公开评价数据、3450万全球上家数据、1.4亿店菜数据以及10万个性化标签
- 数据处理
  - 以商户、商品、用户等为主要实体，其基本信息作为属性，商户与商品、与用户的关联为边，将多领域的信息关联起来，同时利用评论数据、互联网数据等，结合知识获取方法，填充图谱信息，从而提供更加多元化的知识。
  - 采用统计语言模型、主题生成模型以及深度学习模型等各种模型，对商家标签、菜品标签、情感分析进行挖掘。
  - 其次对评论标签聚合，主要采用知识图谱推理技术与标签相结合的方式
  - 接下来，为了更精确地匹配菜品，丰富商户信息，需要对菜品标签进行挖掘。
  - 最后对评论进行情感挖掘，对每一个用户的评论进行分析，分析出用户的一些情感的倾向。
主要业务应用有
- 智能搜索
- ToB商户赋能
- 金融风险管理和反欺诈

企业商业知识图谱的构建与应用

业务背景
- 中国企业数量十分庞大，数据多源，需要构建统一的企业商业知识图谱
- 企业商业知识图谱包括企业、任务、专利等实体类型，以及任职、股权、专利所属权等关系类型，以完善企业及个人画像，助理企业潜在客户获取、客户背景调查、多层次研究报告、风险管控；辅助发现不良资产、企业风险、非法集资等
数据来源
- 半结构化的网页数据：包括全国企业信用信息公示系统、中国裁判文书网、中国执行信息公开网、国家知识产权局、商标局、版权局等
- 文本数据：如投招标信息公告、法律文书、新闻、企业年报等

创投知识图谱的构建与应用

业务背景
- 聚焦于工商知识图谱的一部分数据内容，旨在展示企业、投融资时间、投资机构之间的关系
思路
- 核心是投资，主要描述创业企业与投资机构之间以投资为主线的多种关系。
- 创投领域Schema中设计的概念主要包括初创公司、投资机构、投资人、公司高管、行业以及投融资事件等。
- 融资事件是创投的核心，不同于实体节点，融资事件描述的是一个事实，具有抽象性。
数据来源
- 主要来源于虎嗅、IT桔子、36Kr等科技型媒体
典型问题
- 数值属性表示不一致，例如金额的阿拉伯数字与中文写法的区别
- 实体同义，例如企业的全称与简称
- 不同数据源中的数据冲突
信息存储方式
- 在传统三元组的基础上加入其它描述字段，存储时间、轮次等信息
- 通过匿名节点存储事件，把时间、地点等相关信息作为事件节点的属性

中医临床领域知识图谱的构建与应用

金融证券行业知识图谱应用实践

业务背景
- 传统金融数据服务商历时数十年，已收集整理了大量高质量的结构化数据，并分门别类地展示给用户。
- 如何有效地使用这些数据，需要用户具备专业的金融经济知识，深刻理解某个数据的变动可能引发的关联、传导效应，从而帮助用户做出各种投资决策。
图谱建设步骤
- 从海量异构非结构化数据中辨别金融实体
- 定义并挖掘金融实体之间的各种关系，从而生成知识图谱
- 定义并表达业务逻辑，在知识图谱上实现各种具体任务，如推理等