金庸小说人物知识图谱构建——获取共现关系

本文讲述了如何通过爬虫技术从免费小说网站抓取数据,以章节为共现窗口,分析人物共现关系,构建知识图谱。作者首先爬取了《雪山飞狐》的数据,然后提取人物共现信息,存储到Excel文件中,为后续的人物关系分析做准备。
摘要由CSDN通过智能技术生成

在用命名实体识别工具提取出人名后,我们要构建一个知识图谱,还需要知道人物间的关系,而人物间的关系是基于人物共现来提取的,"共现"指的是两个人物在文章中某一部分共同出现,这个“部分”就是所谓的共现窗口的大小,可以是一个段落,也可以是一个句子,共现窗口越小,人物的共现频次可能就越高。

因此,本步骤的目的是得到人物间的共现关系,我采用的方法是用爬虫爬取免费小说网站上的数据,按章节爬取,将数据保存到数据库中。

数据来源

虽然我有本地数据,但我设定的共现窗口为一个章节,本地数据是整篇小说在一个文档中,无法区分出章节,所以我想到用爬虫到网上爬取数据。
经过一番选择,最后选定了一个免费小说网站,里面有我想要的《雪山飞狐》小说,并且是按章节来分的。

获取数据

在这里插入图片描述
爬虫代码已上传至github——代码

共现关系

将上一步骤得到的共现人名进行提取,存储到excel文件中
在这里插入图片描述
每一行表示在一个章节中共现的人物

参考文章

参考的一位大佬系列文章:
个人博客主页

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值