ACE2005数据预处理步骤

nlpcl-lab/ace2005-预处理:ACE 2005 事件提取任务的语料库预处理 (github.com)

处理步骤是按照上述GitHub上ACE2005数据处理标星最多的代码来进行的。

(34条消息) Ace2005英文数据解析过程(事件抽取)_hlee-top的博客-CSDN博客

这篇博客是对上面代码的解读。

  1. 准备 ACE 2005 数据集

    (下载:ACE 2005 Multilingual Training Corpus - Linguistic Data Consortium。请注意,ACE 2005 数据集不是免费的!!如果学校有购买ACE2005的数据集的话可以免费下载,如果学校没有购买的话,需要自行花费4000美元。获取方式如下:(34条消息) ACE2005数据集获取方式详细介绍_想努力的人的博客-CSDN博客,下载下来的数据放在了根目录下,新建了个data的包

  2. 安装软件包 pip install stanfordcorenlp beautifulsoup4 nltk tqdm

  3. 下载斯坦福-科伦尔普模型

    wget http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip
    unzip stanford-corenlp-full-2018-10-05.zip
    但是我按照上述方法并没有下载成功,出现了unzip的路径配置的相关问题,于是就直接按照上面提到的网址http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip直接下载到了本地,将文件装在了根目录下。
  4. 然后就直接运行main文件

首先,第一个坑,运行main文件的时候,一直报没有cannot import name 'Parser'的错误,于是去parser.py运行了一下,发现这个模块的错误是一堆np的错误以及LookupError:Resource punkt not found.  Please use the NLTK Downloader to obtain the resource:的错误。一堆np的报错没有管,先看第二个报错,于是按照提示在程序上方写了:

import nltk

nltk.download('punkt')

接下来这部分代码报错,显示的是加载时间过长,还是没有下载成功。于是找到了下方教程,按照教程下载了punkt的包,这个问题成功解决。

使用nltk时,报错Resource punkt not found - 知乎 (zhihu.com)

第二个坑,上面的问题解决后,还是报cannot import name 'Parser' from parser的错误,于是干脆直接把Parser这个类复制到了main文件中。接下来没有报错,成功运行了。

程序一直报这面的错误,但是没有管。

 最终

 

 第三个坑,就在我以为万事大吉的时候,train文件又出问题了

某个文件出问题了,于是我直接删掉了这几个文件

 

 然后又报错了

于是又翻了一下这个博客,发现还有个data_list.csv,把这个文件的名字删掉了,然后再运行,可以跑起来了。

(35条消息) Ace2005英文数据解析过程(事件抽取)_hlee-top的博客-CSDN博客

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值