- 在自然语言处理的很多任务上,词性信息基本上已经是一个必不可少的特征信息,但是我们很多情况下又没有能力写一个postagger,这时我们就需要利用其他词性标注的工具包,而stanford-postagger就是一个很不错的工具包,这次我简要说一下stanford-postagger这个包。具体地,我用的版本是stanford-postagger-full-2015-04-20。
- 由于该工具包是用java写的,所以使用该工具包有两种方式:java代码;命令行调用。
- 下图是解压后的文件夹:
java代码:
具体的代码可以参看TaggerDemo.java和TaggerDemo2.java这两个代码,需要注意的是在工程中(例如:eclipse),工程需要将对应的“models”文件夹放置该工程中,同时在该项目的“Bulid Path”中选择“Configure Bulid Path”,点击“Add External JARs”,将“stanford-postagger-3.5.2.jar”加入到该项目中,接下来就基于Demo改一下就可以使用。
当然,如果我们想要做一个可视化界面,可以将该工程导出(export)成一个可执行的jar(Runnable jar fi