python知识图谱关系抽取算法_spo_extract_platform

开放领域的关系抽取的一次尝试

平台组成

标注平台(前端网页),对应目录spo_tagging_platform;

标注内容: S,P,O, is_tagging, 原文以及SPO的关系。

模型:

S,P,O: 序列标注算法(ALBERT+BiLSTM+CRF),对应目录sequence_labeling,在测试集上的F1大约为81%;

关系抽取: 文本二分类(ALBERT+BiGRU+ATT),对应目录text_classification,在测试集上的准确率大约为96%。

标注语料来源于新闻内容和小说内容。

该项目在提取小说、新闻以及其他无结构文本方面的应用,对应目录为extract_example。

数据介绍

现阶段的序列标注算法的样本为3211个,关系抽取的标注数据为9279,共有关系1365个,数量最多的前20个关系如下图:

predicate_val_count.png

平台使用前的准备工作

该平台采用Python3开发,需要安装的模块参考requirements.txt

如何使用该平台?

序列标注算法和文本二分类已经训练好,可以直接clone下来使用。

运行sequence_labeling/run.py,该HTTP服务运行端口为12306;

运行t

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值