stanford parser 使用

最新推荐文章于 2020-04-24 18:27:32 发布

leeharry

最新推荐文章于 2020-04-24 18:27:32 发布

阅读量1.2w

点赞数

分类专栏：机器学习的研究文章标签： parsing printing file 图形 java 工具

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leeharry/article/details/2153583

版权

机器学习的研究专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Stanford Parser

1 处理一个中文的句子：

例如：一些盗版制品经营者为了应付和躲避打击，经营手法更为隐蔽。

首先，使用Chinese segment 进行词语的切分。

调用的命令：

G:/chinesesegmenter>segment.bat pk input.txt gb18030 > out.txt

其中 pk 是词典还有一个词典是ctb （没有比较过两个词典的优劣）

input.txt 是输入文件.里面包含该句子

gb18030 是文件编码还支持GB utf-8

out.txt 是输出的文件

结果：一些盗版制品经营者为了应付和躲避打击，经营手法更为隐蔽。

2 词性标注和生成依存关系

这里为方便生成一个批处理文件：lexparserCh.bat

文件内容：

@echo off

:: Runs the Chinese PCFG parser on one or more files, printing trees only

:: usage: lexparser fileToparse

java -server -mx800m -cp "stanford-parser.jar;" edu.stanford.nlp.parser.lexparser.LexicalizedParser -outputFormat "penn,typedDependenciesCollapsed" chineseFactored.ser.gz %1

---------------------------------------------------------------------------------------------------------------------------

调用的命令：

G:/stanfordparser>lexparserCh.bat input.txt>outputch.txt

Loading parser from serialized file chineseFactored.ser.gz ... done [30.2 sec].

Parsing file: input.txt with 1 sentences.

Parsing [sent. 1 len. 15]: 一些盗版制品经营者为了应付和躲避打击，经营

手法更为隐蔽。

Parsed file: input.txt [1 sentences].

Parsed 15 words in 1 sentences (3.35 wds/sec; 0.22 sents/sec).

其中，chineseFactored.ser.gz 是用于中文的parser。

结果：outputch.txt 文件

ROOT

(IP

(NP

(NP

(QP (CD 一些))

(NP (NN 盗版) (NN 制品)))

(NP (NN 经营者)))

(PP (P 为了)

(IP

(VP

(VP (VV 应付))

(CC 和)

(VP (VV 躲避)

(NP (NN 打击))))))

(PU ，)

(NP (NN 经营) (NN 手法))

(VP

(ADVP (AD 更为))

(VP (VV 隐蔽)))

(PU 。)))

numod(制品-3, 一些-1)

nmod(制品-3, 盗版-2)

nmod(经营者-4, 制品-3)

nsubj(隐蔽-14, 经营者-4)

prep(隐蔽-14, 为了-5)

clmpd(为了-5, 应付-6)

cc(应付-6, 和-7)

ccomp(应付-6, 躲避-8)

dobj(躲避-8, 打击-9)

nmod(手法-12, 经营-11)

nsubj(隐蔽-14, 手法-12)

advmod(隐蔽-14, 更为-13)

3、图形工具界面

运行命令：lexparser-gui.bat

首先load parser

然后选择文件，必须是utf-8编码的，而且是分词过后的。

Language 选择中文。

最后 parser 得到结果的树形表示。

parser

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
9
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

leeharry CSDN认证博客专家 CSDN认证企业博客

码龄19年

20: 原创

25万+: 周排名

155万+: 总排名

14万+: 访问

: 等级

1184: 积分

22: 粉丝

5: 获赞

37: 评论

20: 收藏

私信

关注

热门文章

分类专栏

最新评论

String.split()用法的一点经验
Chin_style: 谢谢博主的分享学到了很多！
String.split()用法的一点经验
杜_小妖: 谢谢分享
String.split()用法的一点经验
dong120840: 我这边要加中括号，才能够分开 "[//|]"
文本检索综述
littlecrab123: 这篇文章基本上把文本检索的类型囊括了，不过现在要开发处包含全部功能的搜索工具，既能快速搜索又能对检索到的源文件进行不失真的操作有什么样的第三方控件可以集成到应用软件中呢？
stanford parser 使用
萤凌火: Parsed 15 words in 1 sentences (3.35 wds/sec; 0.22 sents/sec). 能不能提高运行的速度

最新文章

目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。