一、系统Ubuntu 16.04(虚拟机即可)
安装Anaconda-2.1.0-Linux-x86_64 (python2.7.8)
清华园下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
二、下载TEES
TEES解析器下载地址(下最新版本2.3,因为里面有preprocess.py文件)
文件夹为:TEES-development,放入项目中即可,和数据放在一个文件夹中。
https://github.com/jbjorne/TEES
三、安装TEES的依赖包
1.Ruby
sudo apt-get update
sudo apt-get install ruby
2.flex和bison
sudo apt-get install flex bison
3.java
#查看java版本
javac
#安装java
sudo apt-get install default-jdk
#查看是否安装好
java -version
四、初始设置
在TEES-development文件夹下
只需安装第四项,包括4个解析器,包括GENIA句子切割器,BANNER实体识别,BLLIP解析器和Stanford解析器。
python configure.py
五、解析命令
参考这个页面
https://github.com/jbjorne/TEES/wiki/The-Preprocessor
在save前应该还有,FIND_HEADS,但是加入就出错,所以去掉了。
#-in 后面是文件夹
#-out 后面是输出结果文件
python preprocess.py -i ../BioNLP-OST-2019_BB-rel_train -o ../BioNLP-OST-2019_BB-rel_train.xml --steps LOAD,GENIA_SPLITTER,BANNER,BLLIP_BIO,STANFORD_CONVERT,SPLIT_NAMES,SAVE