政务公文的知识图谱构建研究

Echo

已于 2023-04-03 16:48:00 修改

阅读量884

点赞数 5

文章标签：知识图谱人工智能

于 2022-10-13 11:31:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37402244/article/details/127298177

版权

政务公文的知识图谱构建研究

此项目为本人大创项目，已发表论文《基于 BiLSTM-CRF 的政务公文实体识别》，现公开代码给有需要的兄弟借鉴参考

源代码链接

github链接：链接

gitee链接：链接

有帮助的话，给个star吧~~

数据来源

该实验为政务公文命名实体识别，可以归纳为以下流程：①使用python中的scrapy框架收集政府信息公开文件，并使用pandas对数据进行前期清洗；②人工标明实体信息，按照合适百分比分割训练集，测试集，验证集；③构建神经网络模型并进行训练，测试，通过调整不同参数，结果达到最优效果；④分析结果，得到最优的实体识别模型。

本文数据为采集广西壮族自治区政府信息公开文件，5130条数据，共28.9M。对数据进行人工标注实体信息，采用BIO标注法，标注文件中的地点，组织，产品，时间，共4个实体类别。

前期人员要对训练集和测试集通过pandas清洗掉无用的数据，去重等，以免对数据标注和最终结果产生不必要的出入。

其次，本实验将在字符级别对文本进行编码，标记每个字符，并将每个字符的编号用作训练标签。非实体由O代表。将数据按照8:1:1分成训练集，测试集，验证集。

项目分为两部分，第一是命名实体识别，第二部分是关系抽取，并使用neo4j可视化。

命名实体识别

模型结构

模型参数

实验环境为Python 3.7、Tensorflow 2.2.0、Keras 2.3.1的编译平台。

模型参数为Barth Size：64；Learning Rate：0.001；Embedding Size：200；Optimizer：Adam；Word Length：60；Epochs：30。

实验结果

知识图谱

关系抽取

构建知识图谱

关注

5
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。