CEC突发事件语料库转突发事件领域NER数据集

最新推荐文章于 2024-04-14 09:42:49 发布

popopocca

最新推荐文章于 2024-04-14 09:42:49 发布

阅读量1.6k

点赞数

分类专栏：日常问题文章标签： python

本文链接：https://blog.csdn.net/jknpocca/article/details/115711604

版权

借鉴一篇论文的思路《基于BERT的安全事件命名实体识别研究》-四川大学
我想将自己的模型放在小众的数据集上，于是选择了这个数据集。
第一部分：XML格式转 BIO标注
先空着：
论文中的描述
转换标注后

第二部分：BIO数据集去除非法字符
我的模型的迁移性比较好，只需要在config.py里更改数据集地址，和提取实体种类，在utils.py里更改实体标签，一般可以直接运行，但这个转换后的数据集需要处理，显示错误：
keyError
解决方案：
①我坚信数据集里有非法字符，于是，去网上找汉字、标点符合、数字等的Unicode码，讲这些排除之后，剩下的就是非法字符

# -*- coding: UTF-8 -*-
a = 0#为了记录第几行
list1 = []
with open('D:\桌面上的一些文件\实验相关材料\实验相关\CEC\cec_test.txt', "r", encoding='UTF-8') as f:
    for i in f.readlines():
        a = a+1
        str

最低0.47元/天解锁文章

popopocca

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
8
评论
CEC突发事件语料库转突发事件领域NER数据集

借鉴一篇论文的思路《基于BERT的安全事件命名实体识别研究》-四川大学我想将自己的模型放在小众的数据集上，于是选择了这个数据集。第一部分：XML格式转 BIO标注先空着：第二部分：BIO数据集去除非法字符我的模型的迁移性比较好，只需要在config.py里更改数据集地址，和提取实体种类，在utils.py里更改实体标签，一般可以直接运行，但这个转换后的数据集需要处理，显示错误：解决方案：①我坚信数据集里有非法字符，于是，去网上找汉字、标点符合、数字等的Unicode码，讲这些排除之后，剩
复制链接

扫一扫