NER实现问题

0 篇文章 0 订阅

1.真的搞不懂数据集是什么形式,因为本身方向是做威胁情报分析的,第一步就是要提取和威胁情报相关的实体,因此实体标签是自己定义的,然后用brat工具对自己的数据进行了标注,可以生成.ann文件,可是生成之后要做什么就很迷茫了。
有看过酱一篇很好的文章,链接如下:
https://blog.csdn.net/qq_41853758/article/details/82933080
首先我看了能和我的方向方法类似的数据集形式是酱的:是一段完整的文本,里面的实体单标了出来
在这里插入图片描述
源数据集的处理流程就是下面三步:wordtxt->tag->split->pkl
tag是如下形式:
在这里插入图片描述
补充tag常用形式如下,博主例子应该是BMEWO,B开始M中间E结束W单个实体O无关
在这里插入图片描述
回到正题,split后的tag文件形式如下:
在这里插入图片描述
emmmm。。看不出区别hhhhhh把代码贴下吧:

def tagsplit():     
	with open('./wordtag.txt', 'rb') as inp: 
	        texts = inp.read().decode('utf-8') 
	                sentences = re.split('[,。!?、‘’“”()]/[O]', texts)         		
	                output_data = codecs.open('./wordtagsplit.txt', 'w', 'utf-8')
	        for sentence in sentences: 
	                if sentence != " ": 
	                            output_data.write(sentence.strip() + '\n')     		
	        output_data.close()

因此最后用作训练的数据时.pkl文件
但是brat工具标注后生成的.ann文件是酱的:只有实体信息,第一列为实体编号,编号自拟且需唯一;第二列包含实体类别实体的起始终止位置,以空格分割,部分实体可能在第二列有分号,表示该实体跨行;第三列是实体所对应的词语, 不参与评测 。
在这里插入图片描述
然后我就迷茫了-。-

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值