政务公文的知识图谱构建研究

政务公文的知识图谱构建研究

此项目为本人大创项目,已发表论文《基于 BiLSTM-CRF 的政务公文实体识别》,现公开代码给有需要的兄弟借鉴参考

源代码链接

github链接:链接

gitee链接:链接

有帮助的话,给个star吧~~

数据来源

​ 该实验为政务公文命名实体识别,可以归纳为以下流程:①使用python中的scrapy框架收集政府信息公开文件,并使用pandas对数据进行前期清洗;②人工标明实体信息,按照合适百分比分割训练集,测试集,验证集;③构建神经网络模型并进行训练,测试,通过调整不同参数,结果达到最优效果;④分析结果,得到最优的实体识别模型。

​ 本文数据为采集广西壮族自治区政府信息公开文件,5130条数据,共28.9M。对数据进行人工标注实体信息,采用BIO标注法,标注文件中的地点,组织,产品,时间,共4个实体类别。

​ 前期人员要对训练集和测试集通过pandas清洗掉无用的数据,去重等,以免对数据标注和最终结果产生不必要的出入。

​ 其次,本实验将在字符级别对文本进行编码,标记每个字符,并将每个字符的编号用作训练标签。非实体由O代表。将数据按照8:1:1分成训练集,测试集,验证集。

​ 项目分为两部分,第一是命名实体识别,第二部分是关系抽取,并使用neo4j可视化。

命名实体识别

模型结构

picture1

模型参数

​ 实验环境为Python 3.7、Tensorflow 2.2.0、Keras 2.3.1的编译平台。

​ 模型参数为Barth Size:64;Learning Rate:0.001;Embedding Size:200;Optimizer:Adam;Word Length:60;Epochs:30。

实验结果

picture2

picture3

picture4

picture5

知识图谱

关系抽取

picture6

构建知识图谱

picture8

picture9

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值