python 金融知识图谱_从零搭建金融证券知识图谱-Part2

本文介绍了如何构建金融证券知识图谱,包括数据抽取、实体对齐、图谱存储和图谱应用。数据源来自上市公司、公募基金等,通过Neo4j进行存储。实体对齐部分涉及公司名称标准化和人(如董事、高管)的唯一标识生成。最后,使用`neo4j-admin import`命令将数据导入图数据库。
摘要由CSDN通过智能技术生成

引言

本文作为该系列的第二篇文章。主要介绍金融证券知识图谱相关数据抽取,以及数据对其工作。数据获取和数据模型构建

数据抽取和实体对齐

图谱存储和图谱应用

图谱更新

我将全部代码用 jupyter notebook 的形式开源在我的 Github 上,方便感兴趣的朋友一步步复现和学习。如果觉得有帮助,那就给个star吧~https://github.com/kevin-meng/financial_stock_knowledge_graph​github.com

1. 数据抽取

根据我们上一步完成的数据模型,我们以此进行数据抽取,并按照 neo4j的 neo4j-admin import 的格式要求,保存文件。

具提处理完整代码见 Github 。较长,考虑到阅读体验,这里就不在这里贴出来了。这里重点讨论下2类节点和一类关系处理方式,及其各类处理方法较为常规。

1.1 公司

公司信息散落在 上市公司基本信息、公募基金列表以及公募基金公司三张表中。需对其进行合并处理。 并以 公司全称(fullname) 作为其唯一主键。 同时为三类公司分别打上对应标签。 上市公司LISTED_COMPANY、基金管理公司FUND_MANAGER以及基金托管公司 FUND_CUSTODIAN。

1.2 实体对齐

对于单位名称,发现 fund_company 和 fund_basic 两张数据表中,有下面五个银行、一个券商、一个资管 名称公司简称没有对齐,即一个实体对应多个名字的情况。

这里我们手工处理,将其对齐 ['中国民生银行', 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值