Stanford Parser中文句法分析器的使用

原创 2016年06月01日 16:29:42

Contents

一、使用时注意两点

二、stanford parser 命令行使用

1  处理一个中文的句子

2  词性标注 和 生成 依存关系

3  图形工具界面

三、句法分析树标注集


一、使用时注意两点:

1。 中文内存大小设置:在运行--运行配置--自变量--vm参数中-加入:--Xmx1024m

2。 Tokenize指的是是否分词。一定选Tokenized并且文件是utf-8格式,并以空格分隔每个词。

 

二、stanford parser 命令行使用

Stanford Parser

Stanford parser基本上是一个词汇化的概率上下文无关语法分析器,同时也使用了依存分析。根据不同的语法观点可以输出不同的的分析结果。所以,可以认为是一个使用混合分析方法的剖析器。

需要用到的jar包:

stanford-parser.jar

stanford-parser-3.5.2-models.jar

stanford-posttagger-3.5.2.jar

1         处理一个中文的句子

例如:一些盗版制品经营者为了应付和躲避打击,经营手法更为隐蔽。

首先, 使用Chinese segment  进行词语的切分。

调用的命令:

G:\chinesesegmenter>segment.bat pk input.txt gb18030 > out.txt

其中 pk 是词典 还有一个词典是ctb (没有比较过两个词典的优劣)

input.txt 是输入文件.里面包含该句子

gb18030 是文件编码 还支持GB utf-8

out.txt 是输出的文件

结果:一些 盗版 制品 经营者 为了 应付 和 躲避 打击 , 经营 手法 更为 隐蔽 。

2         词性标注 和 生成 依存关系

这里为方便生成一个批处理文件:lexparserCh.bat

文件内容:

@echo off

:: Runs the Chinese PCFG parser on one or more files, printing trees only

:: usage: lexparser fileToparse

java -server -mx800m -cp "stanford-parser.jar;" edu.stanford.nlp.parser.lexparser.LexicalizedParser -outputFormat "penn,typedDependenciesCollapsed" chineseFactored.ser.gz %1

---------------------------------------------------------------------------------------------------------------------------

调用的命令:

G:\stanfordparser>lexparserCh.bat input.txt>outputch.txt

Loading parser from serialized file chineseFactored.ser.gz ... done [30.2 sec].

Parsing file: input.txt with 1 sentences.

Parsing [sent. 1 len. 15]: 一些 盗版 制品 经营者 为了 应付 和 躲避 打击 , 经营

手法 更为 隐蔽 。

Parsed file: input.txt [1 sentences].

Parsed 15 words in 1 sentences (3.35 wds/sec; 0.22 sents/sec).

其中,chineseFactored.ser.gz 是用于中文的parser。

 

结果:outputch.txt 文件

ROOT

  (IP

    (NP

      (NP

        (QP (CD 一些))

        (NP (NN 盗版) (NN 制品)))

      (NP (NN 经营者)))

    (PP (P 为了)

      (IP

        (VP

          (VP (VV 应付))

          (CC 和)

          (VP (VV 躲避)

            (NP (NN 打击))))))

    (PU ,)

    (NP (NN 经营) (NN 手法))

    (VP

      (ADVP (AD 更为))

      (VP (VV 隐蔽)))

    (PU 。)))

 

numod(制品-3, 一些-1)

nmod(制品-3, 盗版-2)

nmod(经营者-4, 制品-3)

nsubj(隐蔽-14, 经营者-4)

prep(隐蔽-14, 为了-5)

clmpd(为了-5, 应付-6)

cc(应付-6, 和-7)

ccomp(应付-6, 躲避-8)

dobj(躲避-8, 打击-9)

nmod(手法-12, 经营-11)

nsubj(隐蔽-14, 手法-12)

advmod(隐蔽-14, 更为-13)

3、图形工具界面

运行命令:lexparser-gui.bat

首先load parser

然后选择文件,必须是utf-8编码的,而且是分词过后的。

Language 选择中文。

最后 parser 得到结果的树形表示。



三、句法分析树标注集

ROOT:要处理文本的语句

IP:简单从句

NP:名词短语

VP:动词短语

PU:断句符,通常是句号、问号、感叹号等标点符号

LCP:方位词短语

PP:介词短语

CP:由‘的’构成的表示修饰性关系的短语

DNP:由‘的’构成的表示所属关系的短语

ADVP:副词短语

ADJP:形容词短语

DP:限定词短语

QP:量词短语

 

NN:常用名词

NR:固有名词

NT:时间名词

PN:代词

VV:动词

VC:是

CC:不是(应该是吧!!不太确定)

VE:有

VA:表语形容词

AS:内容标记(如:了)

VRD:动补复合词


版权声明:本文为博主原创文章,未经博主允许不得转载。

stanford parser 中文句法分析

为了进行中文句法分析,使用了stanford parser.开始时,一头茫然。搜索网上资源也有很多异常,勉强处理了下,现将可以运行的代码粘贴如下,希望对于用到的人有所帮助: import java....
  • BOY178564309
  • BOY178564309
  • 2013年10月08日 09:38
  • 2115

stanford parser 使用说明

preface: 最近忙着的项目想试着用斯坦福的parser,来解析句子生成句法分析树,然后分析子树,与treekernal结合起来,训练。stanford parser神器下载下来了,可使用却是蛋疼...
  • u010454729
  • u010454729
  • 2015年07月11日 23:06
  • 12057

Stanford Parser 使用方法

Stanford Parser 自然语言处理,
  • u014112584
  • u014112584
  • 2014年03月31日 17:04
  • 4331

Stanford Parser的使用——进行词法语法分析

http://blog.csdn.net/pipisorry/article/details/42976457 stanford-parser的使用 1、到斯坦福官方网站http://nlp...
  • pipisorry
  • pipisorry
  • 2015年01月21日 20:44
  • 12532

Stanford Parser 详细使用参考

1、到斯坦福官方网站http://nlp.stanford.edu/software/lex-parser.shtml下载软件包,解压。 2、在eclipse中新建一个java project,把解...
  • dushenzhi
  • dushenzhi
  • 2012年11月17日 23:11
  • 5129

Stanford Parser 下载使用

stanford parser下载:http://nlp.stanford.edu/software/lex-parser.shtml#Download 下载下来之后可能会有些迷,没有传说中...
  • qq_36652619
  • qq_36652619
  • 2017年07月13日 19:50
  • 467

中文句法分析

中文语法 音节 ... 词 词是由语素组成的最小的造句单位。从构成方式来看,可以分成:单纯词和合成词。从词性来看,可以分成:实词和虚词。 单纯词 由一个语素组成的词,自由的单音节语素和所有的双音...
  • pipisorry
  • pipisorry
  • 2015年11月26日 20:20
  • 4865

采用Stanford Parser进行中文语法解析

Stanford Parser是由StanforsNLP Group开发的基于Java的开源NLP工具,支持中文的语法分析,当前最新的版本为3.3.0,下载地址为:http://nlp.stanfor...
  • yunzhongfeiniao
  • yunzhongfeiniao
  • 2013年11月21日 19:26
  • 19622

斯坦福句法分析使用方法(java版)

斯坦福分析器java版使用教程,智能语言处理,句子相似度计算
  • fox801501
  • fox801501
  • 2015年04月23日 21:33
  • 1841

自然语言处理(NLP)常用开源工具总结----不定期更新

学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具,在这里做一下汇总方便自己以后学习,其中有自己使用过的也有了解不是很多的,对于不甚了解的工具以后学习熟悉了会做更新的。 1.IKAna...
  • yunzhongfeiniao
  • yunzhongfeiniao
  • 2013年11月14日 20:07
  • 20254
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Stanford Parser中文句法分析器的使用
举报原因:
原因补充:

(最多只允许输入30个字)