在用命名实体识别工具提取出人名后,我们要构建一个知识图谱,还需要知道人物间的关系,而人物间的关系是基于人物共现来提取的,"共现"指的是两个人物在文章中某一部分共同出现,这个“部分”就是所谓的共现窗口的大小,可以是一个段落,也可以是一个句子,共现窗口越小,人物的共现频次可能就越高。
因此,本步骤的目的是得到人物间的共现关系,我采用的方法是用爬虫爬取免费小说网站上的数据,按章节爬取,将数据保存到数据库中。
数据来源
虽然我有本地数据,但我设定的共现窗口为一个章节,本地数据是整篇小说在一个文档中,无法区分出章节,所以我想到用爬虫到网上爬取数据。
经过一番选择,最后选定了一个免费小说网站,里面有我想要的《雪山飞狐》小说,并且是按章节来分的。
获取数据
爬虫代码已上传至github——代码
共现关系
将上一步骤得到的共现人名进行提取,存储到excel文件中
每一行表示在一个章节中共现的人物
参考文章
参考的一位大佬系列文章:
个人博客主页