I. 知识图谱 应用案例
电商知识图谱的构建与应用
- 业务背景
- 复杂购物场景:新零售、多语言、线上线下相结合
- 电商交易逐渐转变为集B2C、B2B、跨境为一体,覆盖“实物+虚拟”商品,结合跨领域搜索发现、导购、交互多功能的新型电商交易
- 与通用知识图谱的区别
- 首先,电商知识图谱的核心是商品。整个商业活动中由品牌商、平台运营、消费者、国家机构、物流商等多角色参与。相对于网页来说,数据的产生、加工、使用、反馈控制得更加严格,约束性更强。
- 其次,电商数据的结构化程度相对于通用领域来说做的更好。
- 再次,面向不同的消费者和细分市场,不同角色、不同市场、不同平台对商品描述的侧重都不同,使得对同一个实体描述时会有不同的定义。知识融合就变得非常重要。
- 最后,与通用知识图谱相比较而言,电商知识图谱有大量的大量的国家标准、行业规则、法律法规对商品描述进行着约束。存在大量的人的经验来描述商品做大跟消费者需求的匹配,知识推理显得更为重要。
- 案例 — 阿里巴巴
- 思路:以商品为核心,以人、货、场为主要框架
- 目前共涉及9大类一级本体和27大类二级本体
- 一级本体:人、货、场、百科知识、行业竞争对手、品质、类目、资质和舆情
- 人、货、场构成了商品信息流通的闭环,其他本体主要给予商品更丰富的信息描述
- 目前有百亿级的节点和百亿级的关系边
- 目前共涉及9大类一级本体和27大类二级本体
- 数据来源
- 主要是知识众包,其中关键就是知识图谱本体设计。
- 在设计上要考虑商品本身,又要考虑消费者需求和便于平台运营管理
- 另一个核心工作是要开发面向电商各种角色的数据采集工具,例如面向卖家的商品发布端
- 另一个来源是文本数据,例如商品标题、图片、详情、评价、舆情中的品牌、型号、卖点、场景等信息。这就要求命名识别系统具有跨越大规模实体类型的识别能力,能够支持电商域数据、人机语言交互自然语言问题以及更广泛的微博、新闻等舆情域数据的识别,并且把识别出的实体与知识图谱链接,特别是商品属性和属性值涉及上千类别的实体类型。主要包括:
- 商品域:类目、产品词、品牌、商品属性、属性值、标准产品。
- LBS域:小区、超市、商场、写字楼、公司。
- 通用域:任务、数字、时间。
- 对知识图谱实体描述,除了基础的属性和属性值,很多是通过实体标签来实现的。相对来说,标签变化快,易扩展。很大一部分这类知识是通过推理获得的。例如,在食品标签生成中,知识推理通过食品的配料表数据和国家行业标准,如:
- 无糖;
- 无盐
- 主要是知识众包,其中关键就是知识图谱本体设计。
- 思路:以商品为核心,以人、货、场为主要框架
图情知识图谱的构建与应用
- 业务背景
- 聚焦某一个特定细分行业,以整合行业内屠屏资源为目标的知识图谱
- 提供知识搜索、指示标引、决策支持等形态的知识应用,服务于行业内的从业人员、科研机构及行业决策者
- 思路
- 一般采用自顶向下的方式进行知识建模,通常从资源型数据入手,整理出资源的发表者、发表机构、关键词、发表载体等类型的实体及各自之间的关系,同时通过人物、机构的主页进行实体属性的扩充。
- 数据源主要包括:
- 第一类:知网、专利局等文献类网站
- 第二类:开放通用数据,包括百科类网站以及DBpedia等开发链接数据集
- 第三类:行业垂直的新闻门户
- 第四类:行业内企业和科研机构积累的既有数据
生活娱乐知识图谱的构建与应用:以美团为例
- 业务背景
- 知识图谱能够打破不同场景下的数据隔离
- 美团点评作为在线本体生活服务平台,覆盖了餐饮娱乐领域的众多生活场景,连接了数亿个用户和数千万家商店,积累了宝贵的业务数据,蕴含着丰富的日常生活相关的知识。
- 数据来源
- 原始数据
- 美团点评积累了40亿的公开评价数据、3450万全球上家数据、1.4亿店菜数据以及10万个性化标签
- 数据处理
- 以商户、商品、用户等为主要实体,其基本信息作为属性,商户与商品、与用户的关联为边,将多领域的信息关联起来,同时利用评论数据、互联网数据等,结合知识获取方法,填充图谱信息,从而提供更加多元化的知识。
- 采用统计语言模型、主题生成模型以及深度学习模型等各种模型,对商家标签、菜品标签、情感分析进行挖掘。
- 其次对评论标签聚合,主要采用知识图谱推理技术与标签相结合的方式
- 接下来,为了更精确地匹配菜品,丰富商户信息,需要对菜品标签进行挖掘。
- 最后对评论进行情感挖掘,对每一个用户的评论进行分析,分析出用户的一些情感的倾向。
- 原始数据
- 主要业务应用有
- 智能搜索
- ToB商户赋能
- 金融风险管理和反欺诈
企业商业知识图谱的构建与应用
- 业务背景
- 中国企业数量十分庞大,数据多源,需要构建统一的企业商业知识图谱
- 企业商业知识图谱包括企业、任务、专利等实体类型,以及任职、股权、专利所属权等关系类型,以完善企业及个人画像,助理企业潜在客户获取、客户背景调查、多层次研究报告、风险管控;辅助发现不良资产、企业风险、非法集资等
- 数据来源
- 半结构化的网页数据:包括全国企业信用信息公示系统、中国裁判文书网、中国执行信息公开网、国家知识产权局、商标局、版权局等
- 文本数据:如投招标信息公告、法律文书、新闻、企业年报等
创投知识图谱的构建与应用
- 业务背景
- 聚焦于工商知识图谱的一部分数据内容,旨在展示企业、投融资时间、投资机构之间的关系
- 思路
- 核心是投资,主要描述创业企业与投资机构之间以投资为主线的多种关系。
- 创投领域Schema中设计的概念主要包括初创公司、投资机构、投资人、公司高管、行业以及投融资事件等。
- 融资事件是创投的核心,不同于实体节点,融资事件描述的是一个事实,具有抽象性。
- 数据来源
- 主要来源于虎嗅、IT桔子、36Kr等科技型媒体
- 典型问题
- 数值属性表示不一致,例如金额的阿拉伯数字与中文写法的区别
- 实体同义,例如企业的全称与简称
- 不同数据源中的数据冲突
- 信息存储方式
- 在传统三元组的基础上加入其它描述字段,存储时间、轮次等信息
- 通过匿名节点存储事件,把时间、地点等相关信息作为事件节点的属性
中医临床领域知识图谱的构建与应用
金融证券行业知识图谱应用实践
- 业务背景
- 传统金融数据服务商历时数十年,已收集整理了大量高质量的结构化数据,并分门别类地展示给用户。
- 如何有效地使用这些数据,需要用户具备专业的金融经济知识,深刻理解某个数据的变动可能引发的关联、传导效应,从而帮助用户做出各种投资决策。
- 图谱建设步骤
- 从海量异构非结构化数据中辨别金融实体
- 定义并挖掘金融实体之间的各种关系,从而生成知识图谱
- 定义并表达业务逻辑,在知识图谱上实现各种具体任务,如推理等