Stanford Parser中文句法分析器的使用

原创 2016年06月01日 16:29:42

Contents

一、使用时注意两点

二、stanford parser 命令行使用

1  处理一个中文的句子

2  词性标注 和 生成 依存关系

3  图形工具界面

三、句法分析树标注集


一、使用时注意两点:

1。 中文内存大小设置:在运行--运行配置--自变量--vm参数中-加入:--Xmx1024m

2。 Tokenize指的是是否分词。一定选Tokenized并且文件是utf-8格式,并以空格分隔每个词。

 

二、stanford parser 命令行使用

Stanford Parser

Stanford parser基本上是一个词汇化的概率上下文无关语法分析器,同时也使用了依存分析。根据不同的语法观点可以输出不同的的分析结果。所以,可以认为是一个使用混合分析方法的剖析器。

需要用到的jar包:

stanford-parser.jar

stanford-parser-3.5.2-models.jar

stanford-posttagger-3.5.2.jar

1         处理一个中文的句子

例如:一些盗版制品经营者为了应付和躲避打击,经营手法更为隐蔽。

首先, 使用Chinese segment  进行词语的切分。

调用的命令:

G:\chinesesegmenter>segment.bat pk input.txt gb18030 > out.txt

其中 pk 是词典 还有一个词典是ctb (没有比较过两个词典的优劣)

input.txt 是输入文件.里面包含该句子

gb18030 是文件编码 还支持GB utf-8

out.txt 是输出的文件

结果:一些 盗版 制品 经营者 为了 应付 和 躲避 打击 , 经营 手法 更为 隐蔽 。

2         词性标注 和 生成 依存关系

这里为方便生成一个批处理文件:lexparserCh.bat

文件内容:

@echo off

:: Runs the Chinese PCFG parser on one or more files, printing trees only

:: usage: lexparser fileToparse

java -server -mx800m -cp "stanford-parser.jar;" edu.stanford.nlp.parser.lexparser.LexicalizedParser -outputFormat "penn,typedDependenciesCollapsed" chineseFactored.ser.gz %1

---------------------------------------------------------------------------------------------------------------------------

调用的命令:

G:\stanfordparser>lexparserCh.bat input.txt>outputch.txt

Loading parser from serialized file chineseFactored.ser.gz ... done [30.2 sec].

Parsing file: input.txt with 1 sentences.

Parsing [sent. 1 len. 15]: 一些 盗版 制品 经营者 为了 应付 和 躲避 打击 , 经营

手法 更为 隐蔽 。

Parsed file: input.txt [1 sentences].

Parsed 15 words in 1 sentences (3.35 wds/sec; 0.22 sents/sec).

其中,chineseFactored.ser.gz 是用于中文的parser。

 

结果:outputch.txt 文件

ROOT

  (IP

    (NP

      (NP

        (QP (CD 一些))

        (NP (NN 盗版) (NN 制品)))

      (NP (NN 经营者)))

    (PP (P 为了)

      (IP

        (VP

          (VP (VV 应付))

          (CC 和)

          (VP (VV 躲避)

            (NP (NN 打击))))))

    (PU ,)

    (NP (NN 经营) (NN 手法))

    (VP

      (ADVP (AD 更为))

      (VP (VV 隐蔽)))

    (PU 。)))

 

numod(制品-3, 一些-1)

nmod(制品-3, 盗版-2)

nmod(经营者-4, 制品-3)

nsubj(隐蔽-14, 经营者-4)

prep(隐蔽-14, 为了-5)

clmpd(为了-5, 应付-6)

cc(应付-6, 和-7)

ccomp(应付-6, 躲避-8)

dobj(躲避-8, 打击-9)

nmod(手法-12, 经营-11)

nsubj(隐蔽-14, 手法-12)

advmod(隐蔽-14, 更为-13)

3、图形工具界面

运行命令:lexparser-gui.bat

首先load parser

然后选择文件,必须是utf-8编码的,而且是分词过后的。

Language 选择中文。

最后 parser 得到结果的树形表示。



三、句法分析树标注集

ROOT:要处理文本的语句

IP:简单从句

NP:名词短语

VP:动词短语

PU:断句符,通常是句号、问号、感叹号等标点符号

LCP:方位词短语

PP:介词短语

CP:由‘的’构成的表示修饰性关系的短语

DNP:由‘的’构成的表示所属关系的短语

ADVP:副词短语

ADJP:形容词短语

DP:限定词短语

QP:量词短语

 

NN:常用名词

NR:固有名词

NT:时间名词

PN:代词

VV:动词

VC:是

CC:不是(应该是吧!!不太确定)

VE:有

VA:表语形容词

AS:内容标记(如:了)

VRD:动补复合词


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

利用Stanford Parser进行中文行为抽取

注:转载请注明出处twenz。欢迎大家交流探讨,指出错误,有什么好的建议方法也请给我留言。利用Stanford Parser进行中文行为抽取(Action mining)问题所谓的行为抽取就是从开源文...

Stanford Parser的使用——进行词法语法分析

http://blog.csdn.net/pipisorry/article/details/42976457 stanford-parser的使用 1、到斯坦福官方网站http://nlp...

stanford-ner命名实体识别基本使用

命名实体识别(NER),可以使用Stanford NER开源工具。本文介绍如何在eclipse中,对中文进行命名实体识别,入门操作介绍。

Stanford Parser 对一句话进行依存分析

package com.parser; import java.util.List; import java.io.StringReader; import edu.stanford.nlp.pr...

Stanford Parser 详细使用参考

1、到斯坦福官方网站http://nlp.stanford.edu/software/lex-parser.shtml下载软件包,解压。 2、在eclipse中新建一个java project,把解...

Stanford parser java+eclipse调用

转载自http://blog.sina.com.cn/s/blog_8af106960101a64w.html Stanford Parser句法分析器官网:http://nlp.stanford....

Stanford NLP Chinese(中文)的使用

Stanford NLP tools提供了处理中文的三个工具,分别是分词、Parser;具体参考: http://nlp.stanford.edu/software/parser-faq.shtml...
  • jdbc
  • jdbc
  • 2016-01-11 00:00
  • 8026

stanfor-parser使用参考

1、到斯坦福官方网站http://nlp.stanford.edu/software/lex-parser.shtml下载软件包,解压。 2、在eclipse中新建一个java project,...

StanfordParser 对文本文件进行句法分析

package com.parser; import java.util.Collection; import java.util.Iterator; import java.util.List; ...

Stanford-parser依存句法关系解释

ROOT:要处理文本的语句;IP:简单从句;NP:名词短语;VP:动词短语;PU:断句符,通常是句号、问号、感叹号等标点符号;LCP:方位词短语;PP:介词短语;CP:由‘的’构成的表示修饰性关系的短...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)