实战演练|从原理到应用：DeepKE框架介绍及简单使用

上学真难

已于 2022-11-21 11:31:09 修改

阅读量9.1k

点赞数 17

分类专栏：知识图谱系列文章标签： python 自然语言处理知识图谱 pytorch

于 2022-11-21 11:10:56 首次发布

本文链接：https://blog.csdn.net/qq_30284057/article/details/127960607

版权

知识图谱系列专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍DeepKE知识图谱抽取框架的安装、配置及基本使用方法，包括命名实体识别、关系抽取等功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DeepKE框架介绍及简单使用

本文主要参考deepKE官方文档，以及deepKE官方框架源码https://github.com/zjunlp/DeepKE，我此时使用的DeepKE最新版本是2.1.1。

DeepKE框架介绍

DeepKE是一个开源的知识图谱抽取与构建工具，支持cnSchema、低资源、长篇章、多模态的知识抽取工具，可以基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。同时为初学者提供了用户手册。

目前的DeepKE框架还在开发中，我下载的最新版本主要功能包括以下三点：

命名实体识别(named entity recognition)，简称NER
关系抽取(relation extraction)，简称为RE
属性提取(attribute extraction)，简称为AE

框架包含了CNN,RNN,transformer,capsule,gcn,BiLSTM-CRF,预训练模型等，可以进行任意的调用。

下面是官方给出的framework：

官方framework

除了上面说的主要的三点外，deepKE还提供了更多的场景用来满足不同的需求，比如RE任务就包含了standard，low-resource(few-shot)，document-level和multimodal四种setting。

每一个使用场景都由三个模块组成，如上图所示，包含了，数据，模型和核心，

Data模块主要包含了标记化或者说分词，预处理和数据载入。
Model主要包含了主要使用的Module，编码器和前向传播
Core主要包含了Train，Evaluate和Predict三个方面的内容。

DeepKE的安装

就我个人体验而言，直接pip install deepke是可以的，但还需要做一些调整。下面我结合官方给出的安装方式，具体说明。

下载源代码
```
git clone --depth 1 https://github.com/zjunlp/DeepKE.git
```
git进行深拷贝下载源代码，其实这个下载不下载无所谓，你直接在GitHub中看也行，只要知道怎么用就可以，也可以直接在pycharm中看源码。
创建虚拟环境

不论是Linux还是Windows，用python做一个新东西总得创建虚拟环境吧，官方也提供了 docker，我还不会用，这里只讲anaconda。

anaconda创建环境：
```
conda create -n deepke python=3.8

conda activate deepke
```
直接pip安装即可。
```
pip install deepke
```
此时应该会进行很多的安装，等待即可，但在我写此文的时候的依赖包安装，有些是不符合环境需求的，可能需要更改。
简单使用(看第四步)

这个直接看官方的，他以RE为例，其实就是拷贝数据，运行run.py。
配置环境

大部分包在pip install deepke的时候已经给你安装完了，但是少量环境还需要变更。笔者的问题主要是torch的安装。根据写此文的时的版本，deepke所需的环境如下：
```
python == 3.8

torch == 1.5
hydra-core == 1.0.6
tensorboard == 2.4.1
matplotlib == 3.4.1
transformers == 3.4.0
jieba == 0.42.1
scikit-learn == 0.24.1
pytorch-transformers == 1.2.0
seqeval == 1.2.2
tqdm == 4.60.0
opt-einsum==3.3.0
wandb==0.12.7
ujson
```
实际上，当你打开源码时，里面的torch的版本要求是：
```
torch >= 1.5 <=1.10
```
但无论如何，直接pip安装的torch版本都不符合要求。需要自己更新版本。更重要的是，pip安装给你装的是cpu版本，不能通过cuda运行。可以去pytorch官网上找符合要求的版本来下载。我这里选择的是1.8.1的版本，下载的命令为：
```
pip install torch==1.8.1+cu111 torchvision==0.9.1+cu111 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html
```
要下载相适配的版本，否则可能是不能起作用的。

在这之后，其他的一些小问题更新一下就可以了。这样，你就完成了deepKE框架使用前的准备工作。

注意：

如果你试图直接更新torch的版本为1.5.0的话，会报错的，因为版本不兼容。这个坑我已经替你踩过了。
如果还有编译错误，请用Linux虚拟机进行上述过程。

DeepKE框架各目录介绍

我们按照之前的提示，将DeepKE框架源码下载下来的目录应该如下：

- DeepKE    ## 整个项目的源代码
    - .github     ## 存放关于GitHub上的一些配置
    - docker   ## docker镜像
    - docs   ## 文档及配置
    - example   ## 一些使用的例子
    - pics  ## 一些文档中的以及模型的架构图
    - pretrained   ## 预训练说明文档
    - src   ## 源代码，安装后可以从import中直接引用的
    - tutorial-notebooks   ## 通过notebook形式的一些简单使用和说明
    .gitignore    ## 哪些文件不要上传到GitHub上，这里不用管
    CITATION.cff   ## 引用说明
    LICENSE   ## 授权协议
    README.md   ## 总体的说明，安装及简单使用也可以看这个
    README_CN.md   ## 总体对应的中文文档
    README_CNSCHEMA.md   ## DeepKE-cnSchema中文知识图谱框架说明，包含模型下载以及简单的说明和使用
    README_CNSCHEMA_CN.md  ## DeepKE-cnSchema相应中文说明
    README_TAG.md   ##  数据标注说明，包括人工标注和自动标注
    README_TAG_CN.md  ## 数据标注中文说明
    requirements.txt    ## 需要的环境
    setup.py    ## 打包说明文件

这里我没有展开二级目录，下面我将对每个文件夹及文件逐个讲解其作用：

非文件夹内容

这里指的是上面不带-的那些内容，都不是文件夹，即以下内容：

.gitignore    ## 哪些文件不要上传到GitHub上，这里不用管
CITATION.cff   ## 引用说明
LICENSE   ## 授权协议
README.md   ##重要！ 总体的说明，安装及简单使用也可以看这个
README_CN.md   ## 总体对应的中文文档
README_CNSCHEMA.md   ##重要！ DeepKE-cnSchema中文知识图谱框架说明，包含模型下载以及简单的说明和使用
README_CNSCHEMA_CN.md  ## DeepKE-cnSchema相应中文说明
README_TAG.md   ##重要！  数据标注说明，包括人工标注和自动标注
README_TAG_CN.md  ## 数据标注中文说明
requirements.txt    ##重要！ 需要的环境
setup.py    ## 打包说明文件

这里较为重要的文档为三个README文档，以及requirements的内容，其余可以省略不看。

requirements主要是整个项目所需要的环境，按照对应的包安装。
第一个README介绍了版本更新及快速上手。
README_CNSCHEMA是对开箱即用的中文知识图谱框架进行的介绍，可以直接下载训练好的模型。
README_TAG是数据标注的说明，这个对于自定义的数据来说很重要。

接着是一些相对没那么重要的文件夹,主要是文档及说明：

- .github     ## 存放关于GitHub上的一些配置
  - ISSUE_TEMPLATE   ## 提交的issue时模板
    bug_report.md   ## bug提交模板
    feature_request.md   ## 提出的idea
    question_consult.md   ## 问题询问模板
  CODE_OF_CONDUCT.md   ## 贡献者盟约行为准则，类似道德规范之类的吧啦吧啦
  CONTRIBUTING.md   ## 贡献，也是一堆吧啦吧啦
  
- docker   ## docker镜像
  Dockerfile  ## 定制镜像文本文件，readme中有使用方法
  
- docs   ## 文档及配置
  - sildes  ## 一些PPT
    Slides-DeepKE-cn.pdf    ## 中文版的deepKE简介PPT
    Slides-DeepKE-en.pdf    ## 英文版的deepKE简介PPT
  - source  ## 文档的一些源
    - _static  ## 一些图和css
      - css   ##  一些css文件
        custom.css  ##   文档的css？这里我也不知道
      architectures.png  ## 架构图
      demo.gif  ## demo演示图
      logo.png  ## deepKE的logo
      wandb.png  ## Weights and Biases的图
    conf.py   ## 文档配置文件，不用管
    deepke.attribution_extraction.rst    ## 类似javadoc的功能说明文档，实际里面没啥东西…
    ## 还有很多，这里不列举了
  make.bat  ## windows make的脚本
  Makefile   ## 编译和链接程序的makefile文件

这里是三部分内容：

.github是在github上提交的文件的东西，对我们使用框架没有作用，可以省略不计，具体的内容可以自己看上面的注释。
dockers的内容主要就是一个docker镜像文本文件，在安装时如果需要可以用到。
docs中的内容较多，包含一些说明的PPT，文档的源，以及编译和链接所需要的脚本和makefile。

以上三个内容对于框架的使用是不起什么实际作用的。

**下面是重要的内容！**主要是使用的例子：

- example   ##重要！ 一些使用的例子
  - ae   ## 属性提取例子
    - standard   ##重要！ 常规使用
      - conf   ## 里面是各种模型配置，这里就不展开了
      predict.py   ## 预测的文件，如果是预测，主要调用这个
      README.md   ## ae使用例子的readme
      README_CN.md    ## 相应的中文文档
      requirements.txt   ## 需要的环境
      run.py   ## 训练模型的主函数
  - ee  ## 事件提取例子，新加的
    - standard   ## 常规使用
      - conf   ## 里面是各种模型配置，这里就不展开了
      - data   ## 包含data，预处理py文件及脚本
      predict.py   ## 预测的文件，如果是预测，主要调用这个
      README.md   ## ee使用例子的readme
      README_CN.md    ## 相应的中文文档
      requirements.txt   ## 需要的环境
      run.py   ## 训练模型的主函数
  - ner   ## 命名实体识别例子
    - few-shot   ## 低资源例子
      - conf   ## 里面是各种模型配置，这里就不展开了
      predict.py   ## 预测的文件，如果是预测，主要调用这个
      README.md   ## ner低资源使用例子的readme
      README_CN.md    ## 相应的中文文档
      requirements.txt   ## 需要的环境
      run.py   ## 训练模型的主函数
    - multimodal  ## 多模态例子，和前面差不多，自己看下
    - prepare-data  ## 重要！如何准备数据
      - pics  ## 图片
      prepare_weaksupervised_data.py   ## 弱监督准备数据脚本
      READ.md  ## 准备数据的文档，这个可以好好看看
      README_CN.md   ##相应的中文文档
    - standard  ## 常规例子，和前面差不多，自己看下，但是里面包含了数据，是可以直接用的。
  - re   ## 和ner中差不多，不再赘述
    去看ner和具体的代码
  - triple   ## 三元组例子，这里(重要注意)没有readme
    联合抽取，可以具体看代码，和 ae  standard的目录结构差不多

例子中包含了五个方面的内容，其中事件抽取是新加入的：

ae是属性抽取的例子，里面包含了常规的使用，主要是配置文件，以及启动的python文件。
ee是事件提取的例子，和ae中差不多，不同之处在于多了数据。
ner是命名实体识别的例子，包含了低资源，多模态，常规多个场景的例子，包含的文件与前面类似，主要不同在于给了如何准备数据的文件！
re是关系抽取的例子，和ner中类似
triple是联合三元组抽取的例子，这个地方没有readme！其他都相似。

最后一部分主要是教学内容：

- pics  ## 一些文档中的以及模型的架构图
  APCNN.jpg  ## APCNN架构图
  …   ## 还有一大堆，都是写文档用到的图片
  
- pretrained   ##重要！ 预训练说明文档
  readme.md   ## 使用预训练的说明文档
  README_CN.md   ## 对应的中文文档

- src   ##重要！ 源代码，安装后可以从import中直接引用的
  ## 这里就不介绍了，后面会出详细的介绍源码的文章

- tutorial-notebooks   ## 通过notebook形式的一些简单使用和说明
  - ae   ## 属性提取教程
    - standard   ## 常规的 notebook说明文档
  - ner   ## 命名实体识别教程
    - few-shot   ## 低资源的 notebook说明文档
    - multimodal   ## 多模态的 notebook说明文档
    - standard   ## 常规的 notebook说明文档
  - re   ## 关系抽取教程
    - document   ##  文档级别的 notebook说明文档
    - few-shot   ## 低资源的 notebook说明文档
    - multimodal   ## 多模态的 notebook说明文档
    - standard   ## 常规的 notebook说明文档

这里的四个文件夹的内容主要为：

pics中是各种源图片，不想管的可以不理。
pretrained是预训练说明文档，之后肯定会用到的，建议看看
src是源代码，其中内容太多，之后会出文章详细讲解
tutorial-notebooks是通过notebook形式的一些简单使用和教程

每个文件我都做了详细的说明，在后面的注释中，可以打开看具体的详情，重要的文件已经标注了。如果有需要，可以下载源代码具体看是什么，制作上述说明不易~麻烦点个赞吧。💞

DeepKE的简单使用

这里是deepKE的简单的使用教程，首先是官方的文档说明给出的简单使用，以常规关系抽取为例。首先进入文件夹：

cd DeepKE/example/re/standard

然后去官方的给的网站下载数据集，或根据数据标注说明标注数据](https://github.com/zjunlp/DeepKE/blob/main/README_TAG_CN.md)%E6%A0%87%E6%B3%A8%E6%95%B0%E6%8D%AE)自己标定数据。

wget 120.27.214.45/Data/re/standard/data.tar.gz

tar -xzvf data.tar.gz

支持多种数据类型格式，具体请见各部分子README。

这里我已经帮你们下好了，data里面的内容是四个csv文件：

relation.csv(定义的关系集合)
test.csv(测试集)
train.csv(训练集)
valid.csv(验证集)

接着就是模型训练，训练用到的参数可在conf文件夹内修改

DeepKE使用wandb支持可视化调参

python run.py

然后使用模型进行预测。预测用到的参数可在conf文件夹内修改

修改conf/predict.yaml中保存训练好的模型路径。

python predict.py

补充：

这里可能存在不能运行的问题，请尝试以下方法：

请单独把src这个文件夹也就是deepke的代码文件，复制到/DeepKE-main/example/re/standard目录下。

RE(standard)更换数据:

给出的数据只需要sentence、relation、head、tail就行。head_offset和tail_offset读取数据的文件里面会自动计算。数据读取好后放在这个文件夹下：DeepKE/example/re/standard/data/origin/。需要按照例子中给出的划分出训练集，测试集和验证集。

另外，因为读入新的数据集，关系的数目变了，需要修改模型输出的节点个数。也就是你那个relation.csv的内容不同，就需要变更一下conf/embedding.yaml中的num_relation的关系数目。