Stanford CoreNLP开源项目的3种编译和运行方式[2]

最新推荐文章于 2022-10-26 16:23:22 发布

数据娃掘

最新推荐文章于 2022-10-26 16:23:22 发布

阅读量2k

点赞数

分类专栏： NLP/DeepLearning

NLP/DeepLearning 专栏收录该内容

319 篇文章 14 订阅

订阅专栏

4. 项目源码在linux控制台下的编译与运行

第3节中所述的操作其实已经可以满足大部分程序员的要求了。但是还有一小部分程序员，他们要把项目打好jar包部署到linux的服务器上。

部署的过程中有可能要在linux服务器上当场改代码。这时候有两种解决方式：

1.返回开发环境，用可视化的编辑软件修改代码后重新编译，在完成打包部署过程。

2.直接在linux服务器上用vi修改代码，改完后在linux上编译，打包，再部署。

两种方式各有好处，如果对linux相当熟悉的话，可以考虑使用第2种方式。快捷且高效。

这就是本节要阐述的内容：如何让项目源码在linux控制台下编译与运行

准备工作仍然是拿到源码stanford-source.jar(源文件为：

stanford-corenlp-2011-06-19-sources.jar，我改了名字)。

1. 解压源码到src目录

hdp@master:~/tmp/nlp$  mkdir  src

hdp@master:~/tmp/nlp$  cd  src

hdp@master:~/tmp/nlp/src$  jar  xf  ../stanford-source.jar

hdp@master:~/tmp/nlp/src$  ls

edu  META-INF

2. 准备Makefile文件，文件内容是总体编译edu下的源码，然后使用META-INF下的MANIFEST.MF文件将编译好的class

hdp@master:~/tmp/nlp/src$  cd  ..

hdp@master:~/tmp/nlp$  ls

src  stanford-source.jar

hdp@master:~/tmp/nlp$  touch  Makefile

hdp@master:~/tmp/nlp$  vi  Makefile

JAVAC = javac

JAVAFLAGS = -O -d .

corenlp:      

        $(JAVAC) $(JAVAFLAGS) -classpath lib/jgraph.jar:lib/jgrapht.jar:lib/xom.jar:lib/fastutil.jar src/edu/stanford/nlp/*/*.java \

            src/edu/stanford/nlp/*/*/*.java \

            src/edu/stanford/nlp/*/*/*/*.java \

            src/edu/stanford/nlp/*/*/*/*/*.java \

            src/edu/stanford/nlp/*/*/*/*/*/*.java


        jar -cfm stanford-corenlp-`date +%Y-%m-%d`.jar src/META-INF/MANIFEST.MF edu        

        cp stanford-corenlp-`date +%Y-%m-%d`.jar stanford-corenlp.jar

 

        rm -rf edu

~

以上的命令可以完成MakeFile的创建工作，vi之后是Makefile的内容。

3. 准备编译时需要的jar包。lib/jgraph.jar:lib/jgrapht.jar:lib/xom.jar:lib/fastutil.jar

hdp@master:~/tmp/nlp$  ls

Makefile  src  stanford-source.jar

hdp@master:~/tmp/nlp$  mkdir  lib

hdp@master:~/tmp/nlp$  cp  /home/hdp/nlp/lib/*.jar  lib/

4. 编译，打包

hdp@master:~/tmp/nlp$  make

javac -O -d . -classpath lib/jgraph.jar:lib/jgrapht.jar:lib/xom.jar:lib/fastutil.jar src/edu/stanford/nlp/*/*.java \

             src/edu/stanford/nlp/*/*/*.java \

             src/edu/stanford/nlp/*/*/*/*.java \

             src/edu/stanford/nlp/*/*/*/*/*.java \

             src/edu/stanford/nlp/*/*/*/*/*/*.java

Note: Some input files use or override a deprecated API.

Note: Recompile with -Xlint:deprecation for details.

Note: Some input files use unchecked or unsafe operations.

Note: Recompile with -Xlint:unchecked for details.

jar -cfm stanford-corenlp-`date +%Y-%m-%d`.jar src/META-INF/MANIFEST.MF edu

cp stanford-corenlp-`date +%Y-%m-%d`.jar stanford-corenlp.jar

rm -rf edu

此过程中，nlp目录下将创建edu，然后编译，编译得到的文件全部放于edu中。然后使用edu中类文件与src/META-INF/MANIFEST.MF文件一起打成stanford-corenlp-`date +%Y-%m-%d`.jar包。最后将这个临时jar包改名成stanford-corenlp.jar

5. 准备输入数据。向input.txt写入数据。

hdp@master:~/tmp/nlp$  vi  input.txt

Stanford University is located in California. It is a great university.

We use the stanford CoreNLP for tech research.

It is useful!

6. Java命令执行jar包中的StanfordCoreNLP示例。

hdp@master:~/tmp/nlp$ java -cp stanford-corenlp.jar:lib/xom.jar:lib/jgrapht.jar:lib/jgraph.jar:lib/stanford-corenlp-models-2011-06-19.jar -Xmx800m edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse,dcoref -file input.txt

Adding annotator tokenize

Adding annotator ssplit

Adding annotator pos

Loading POS Model [edu/stanford/nlp/models/pos-tagger/wsj3t0-18-left3words/left3words-distsim-wsj-0-18.tagger] ... Loading default properties from trained tagger edu/stanford/nlp/models/pos-tagger/wsj3t0-18-left3words/left3words-distsim-wsj-0-18.tagger

Reading POS tagger model from edu/stanford/nlp/models/pos-tagger/wsj3t0-18-left3words/left3words-distsim-wsj-0-18.tagger ... done [5.2 sec].

done [5.5 sec].

Adding annotator lemma

Adding annotator ner

Loading classifier from edu/stanford/nlp/models/ner/all.3class.distsim.crf.ser.gz ... done [21.3 sec].

Loading classifier from edu/stanford/nlp/models/ner/muc.distsim.crf.ser.gz ... done [19.4 sec].

Loading classifier from edu/stanford/nlp/models/ner/conll.distsim.crf.ser.gz ... done [18.2 sec].

Adding annotator parse

Loading parser from serialized file edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz ... done [4.8 sec].

Adding annotator dcoref

Processing file /home/hdp/tmp/nlp/input.txt ... (writing to /home/hdp/tmp/nlp/input.txt.xml)
 

Annotation pipeline timing information:

PTBTokenizerAnnotator: 0.2 sec.

WordsToSentencesAnnotator: 0.0 sec.

POSTaggerAnnotator: 0.5 sec.

MorphaAnnotator: 0.2 sec.

NERCombinerAnnotator: 0.2 sec.

ParserAnnotator: 18.9 sec.

DeterministicCorefAnnotator: 0.7 sec.

TOTAL: 20.8 sec. for 26 tokens at 1.2 tokens/sec.

Pipeline setup: 71.8 sec.

Total time for StanfordCoreNLP pipeline: 93.5 sec.

hdp@master:~/tmp/nlp$

由上命令中的参数，我设置的是800m虚拟内存。运行时间只要93.5s。可是昨天设置的512m内存，程序运行如下：

hdp@master:~/nlp$ java -cp stanford-corenlp.jar:lib/xom.jar:lib/jgrapht.jar:lib/jgraph.jar:lib/stanford-corenlp-models-2011-06-19.jar -Xmx512m edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse,dcoref -file input.txt

…….省略调试信息…… 

Annotation pipeline timing information:

PTBTokenizerAnnotator: 7.8 sec.

WordsToSentencesAnnotator: 0.3 sec.

POSTaggerAnnotator: 9.3 sec.

MorphaAnnotator: 4.3 sec.

NERCombinerAnnotator: 25.1 sec.

ParserAnnotator: 1888.0 sec.

DeterministicCorefAnnotator: 7.5 sec.

TOTAL: 1942.3 sec. for 13 tokens at 0.0 tokens/sec.

Pipeline setup: 3663.5 sec.

Total time for StanfordCoreNLP pipeline: 5616.9 sec.

hdp@master:~/nlp$

最后竟然用了5600s。这相当于1.55个小时。令人吃惊。

5. 总结

到这里，完成了开源框架的3种使用方式的介绍：

1. 方式：Eclipse下使用jar包引入方式。

优缺点：这种方式只能使用，不能对框架做底层改变。

使用条件：适合于大多数程序员开发阶段。

2. 方式：Eclipse下直接编译项目源码的方式。

优缺点：这种方式能够修改框架的实现，可视化编辑；不适合linux的控制台界面。

使用条件：少数需要修改开源框架的时候。

3. 方式：linxu控制台下直接编译项目源码的方式。

优缺点：能够修改框架，但不可视化，麻烦；适合部署过程中代码量的小规模修改。

使用条件：项目部署时代码量的小规模修改。