Stanford Parser中文句法分析器的使用

原创 2016年06月01日 16:29:42

Contents

一、使用时注意两点

二、stanford parser 命令行使用

1  处理一个中文的句子

2  词性标注 和 生成 依存关系

3  图形工具界面

三、句法分析树标注集


一、使用时注意两点:

1。 中文内存大小设置:在运行--运行配置--自变量--vm参数中-加入:--Xmx1024m

2。 Tokenize指的是是否分词。一定选Tokenized并且文件是utf-8格式,并以空格分隔每个词。

 

二、stanford parser 命令行使用

Stanford Parser

Stanford parser基本上是一个词汇化的概率上下文无关语法分析器,同时也使用了依存分析。根据不同的语法观点可以输出不同的的分析结果。所以,可以认为是一个使用混合分析方法的剖析器。

需要用到的jar包:

stanford-parser.jar

stanford-parser-3.5.2-models.jar

stanford-posttagger-3.5.2.jar

1         处理一个中文的句子

例如:一些盗版制品经营者为了应付和躲避打击,经营手法更为隐蔽。

首先, 使用Chinese segment  进行词语的切分。

调用的命令:

G:\chinesesegmenter>segment.bat pk input.txt gb18030 > out.txt

其中 pk 是词典 还有一个词典是ctb (没有比较过两个词典的优劣)

input.txt 是输入文件.里面包含该句子

gb18030 是文件编码 还支持GB utf-8

out.txt 是输出的文件

结果:一些 盗版 制品 经营者 为了 应付 和 躲避 打击 , 经营 手法 更为 隐蔽 。

2         词性标注 和 生成 依存关系

这里为方便生成一个批处理文件:lexparserCh.bat

文件内容:

@echo off

:: Runs the Chinese PCFG parser on one or more files, printing trees only

:: usage: lexparser fileToparse

java -server -mx800m -cp "stanford-parser.jar;" edu.stanford.nlp.parser.lexparser.LexicalizedParser -outputFormat "penn,typedDependenciesCollapsed" chineseFactored.ser.gz %1

---------------------------------------------------------------------------------------------------------------------------

调用的命令:

G:\stanfordparser>lexparserCh.bat input.txt>outputch.txt

Loading parser from serialized file chineseFactored.ser.gz ... done [30.2 sec].

Parsing file: input.txt with 1 sentences.

Parsing [sent. 1 len. 15]: 一些 盗版 制品 经营者 为了 应付 和 躲避 打击 , 经营

手法 更为 隐蔽 。

Parsed file: input.txt [1 sentences].

Parsed 15 words in 1 sentences (3.35 wds/sec; 0.22 sents/sec).

其中,chineseFactored.ser.gz 是用于中文的parser。

 

结果:outputch.txt 文件

ROOT

  (IP

    (NP

      (NP

        (QP (CD 一些))

        (NP (NN 盗版) (NN 制品)))

      (NP (NN 经营者)))

    (PP (P 为了)

      (IP

        (VP

          (VP (VV 应付))

          (CC 和)

          (VP (VV 躲避)

            (NP (NN 打击))))))

    (PU ,)

    (NP (NN 经营) (NN 手法))

    (VP

      (ADVP (AD 更为))

      (VP (VV 隐蔽)))

    (PU 。)))

 

numod(制品-3, 一些-1)

nmod(制品-3, 盗版-2)

nmod(经营者-4, 制品-3)

nsubj(隐蔽-14, 经营者-4)

prep(隐蔽-14, 为了-5)

clmpd(为了-5, 应付-6)

cc(应付-6, 和-7)

ccomp(应付-6, 躲避-8)

dobj(躲避-8, 打击-9)

nmod(手法-12, 经营-11)

nsubj(隐蔽-14, 手法-12)

advmod(隐蔽-14, 更为-13)

3、图形工具界面

运行命令:lexparser-gui.bat

首先load parser

然后选择文件,必须是utf-8编码的,而且是分词过后的。

Language 选择中文。

最后 parser 得到结果的树形表示。



三、句法分析树标注集

ROOT:要处理文本的语句

IP:简单从句

NP:名词短语

VP:动词短语

PU:断句符,通常是句号、问号、感叹号等标点符号

LCP:方位词短语

PP:介词短语

CP:由‘的’构成的表示修饰性关系的短语

DNP:由‘的’构成的表示所属关系的短语

ADVP:副词短语

ADJP:形容词短语

DP:限定词短语

QP:量词短语

 

NN:常用名词

NR:固有名词

NT:时间名词

PN:代词

VV:动词

VC:是

CC:不是(应该是吧!!不太确定)

VE:有

VA:表语形容词

AS:内容标记(如:了)

VRD:动补复合词


版权声明:本文为博主原创文章,未经博主允许不得转载。

stanford parser 中文句法分析

来自http://blog.csdn.net/boy178564309/article/details/12418691 为了进行中文句法分析,使用了stanford parser.开始时,一头茫然...

斯坦福句法分析使用方法(java版)

斯坦福分析器java版使用教程,智能语言处理,句子相似度计算

stanford parser 中文句法分析

为了进行中文句法分析,使用了stanford parser.开始时,一头茫然。搜索网上资源也有很多异常,勉强处理了下,现将可以运行的代码粘贴如下,希望对于用到的人有所帮助: import java....

StanfordParser句法分析输入输出

在使用StanfordParser(SD)进行语法分析时,SD默认使用的是从文件读入和输出到输出流,如下:在cmd的python命令行里输入:java -mx150m -cp "*;" edu.sta...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

stanford parser 使用说明

preface: 最近忙着的项目想试着用斯坦福的parser,来解析句子生成句法分析树,然后分析子树,与treekernal结合起来,训练。stanford parser神器下载下来了,可使用却是蛋疼...

Stanford Parser 使用方法

Stanford Parser 自然语言处理,

Python 调用 Stanford Parser 两种方法

Python 调用 Stanford Parser 的方法 Jython 调用 Stanford Parser 的方法 Python java.lang.NoClassDefFoundError: o...
  • huludan
  • huludan
  • 2016年02月22日 16:14
  • 3499

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

Stanford-parser依存句法关系解释

ROOT:要处理文本的语句;IP:简单从句;NP:名词短语;VP:动词短语;PU:断句符,通常是句号、问号、感叹号等标点符号;LCP:方位词短语;PP:介词短语;CP:由‘的’构成的表示修饰性关系的短...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Stanford Parser中文句法分析器的使用
举报原因:
原因补充:

(最多只允许输入30个字)