NLTK中使用Stanford parser 构建中文语法树

我的环境是ubuntu16.10,最新的stanford parser 需要Java8环境,因此首先需要安装JDK。然后到http://nlp.stanford.edu/software/lex-parser.shtml#Download网址下载stanford-parser-full-xxxx-xx-xx.zip,将这个压缩包解压。

如果是用Java进行开发,则就很容易了,将解压包里的几个jar添加到项目工程就可以了,我用IDEA测试了下是可以构建中文语法树的。

 

而如果用Python最好是通过NLTK提供的stanford接口进行开发,官网上提供的那个利用Jpype是相当蛋疼的,并没有安装成功,显示缺少c++的支持,我把GCC和G++更新了也没有用,不知道有没有破坏电脑上其他依赖关系。

在解压包中找到Stanford-parser-x.x.x-models.jar继续解压到一个文件夹。这样就可以写代码了。


其他没什么好说的,就是 string1是刚才解压Stanford-parser-x.x.x-models.jar的位置,里面chinesePCFG.ser.gz。

Python是可以显示语法树的



我还下载了chinese-models.jar这个文件,看了下里边有些东西是和full包的models.jar有些一样的,full包里的各种语言的模型都有,而且full包里models.jar只有300M,但是Chinese-models.jar里有接近800M,应该是针对中文做了更详细的模型以及使用了更大的语言包。还没有仔细的了解,等了解了再写写

阅读更多

没有更多推荐了,返回首页