ACE2005 英文语料预处理

本文档记录了在github上执行最高星的ACE2005英文语料预处理流程时遇到的问题及解决方法。包括无需sudo执行、安装JAVA环境、注意执行路径、手动下载nltk资源等步骤。处理完成后,数据个数与官方稍有差异。
摘要由CSDN通过智能技术生成

事件抽取 ACE2005 英文语料预处理过程
执行github上最高星的预处理流程,附上自己的日常踩坑日记。
github传送门:https://github.com/nlpcl-lab/ace2005-preprocessing
踩坑1:sudo
作者说要用sudo执行命令,否则会出现未知错误。
在这里插入图片描述

事实上不sudo也行,sudo的话反而容易报错。如果没有修改linux配置文件的话,sudo执行的是root环境中的python环境,就算使用了anaconda的虚拟环境也不行!笔者傻呵呵的一直在虚拟环境中装、卸、装、卸需要的python库,运行代码时缺提示一直缺少xxx库就是这个原因。

踩坑2
stanford-corenlp需要安装JAVA,如果系统中没有JAVA需要自行安装,附上一个JAVA安装教程。
https://blog.csdn.net/u010993514/article/details/82926514

踩坑3
在这里插入图片描述
别傻呵呵的直接复制执行,记得看后面指令的路径,自行修改路径或者按照该代码中的指定路径移动数据和框架。

踩坑4
按照作者的操作最后执行python main.py的时候,会在nltk.download(‘punkt’)这块报错,因为关闭了下载的资源链接,需要手动下载。附上解决方法传送门:
https://blog.csdn.net/weixin_39712314/article/details/106173356
需要注意按照指定路径存放下载的资源。

大功告成后就可以处理ace2005数据集啦!
在这里插入图片描述
最后处理出的数据个数和作者github上的数据有一点点出入。
dev:
在这里插入图片描述
test
在这里插入图片描述
Train:
在这里插入图片描述
(别问这个数据集哪来的)

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值