Stanford Word Segmenter使用

最新推荐文章于 2021-04-07 23:49:29 发布

weixin_30636089

最新推荐文章于 2021-04-07 23:49:29 发布

阅读量220

点赞数

原文链接：http://www.cnblogs.com/qianwen/p/3854809.html

版权

1,下载 Stanford Word Segmenter软件包；

Download Stanford Word Segmenter version 2014-06-16

2，在eclipse上建立一个Project StanfordSegmenter。解压Stanford Word Segmenter软件包，将其中的data,arabic，test.sipe.utf8文件夹复制到项目下。

3，添加需要的jar包，seg.jar , stanford-segmenter-3.4-javadoc.jar , stanford-segmenter-3.4-sources.jar.

　　步骤：点击Project->Properties->Java Bulid Path->Libraries->Add External Jars

4,在项目下，建一个com.Seg包，在包下建立一个SegDemo.java，将解压出来的SegDemo的内容复制进去。

5，设置运行环境。

运行SegDemo，Run As-> Run Configurations,运行需要传入参数，test.simp.utf8.

由于Stanford-Sementer占用的内存比较大，所以需要设置VM arguments,不然就会超内存。

如果机子是64bit的可以设为，-mx2g。查看解压出来的segment.sh 文件，可以看到JAVACMD语句的参数设置。

6，运行结果如下，可以看出分词的效果。

7，关联源码，进一步查看分词建模的细节。单步运行观察各个函数的功能。

　　7.1 对loadClassifierNoExceptions(也可以其他函数)点击 ctrl+右键观察源码。结果显示Source not Found.

　　

　　7.2 关联源码，Attach Source->Extenal File->然后将最开始解压包中的stanford-segmenter-3.4-sources.jar包加进去。

　　7.3再次点击，就可以看得源码。

　　

8，如果是中文版的eclipse 需要改成英文版的。中文版的没有Attach Source提醒。改变步骤如下：

　　8.1在eclipse的安装目录里找到eclipse.ini文件，编辑打开，在文件的后面加上 -Duser.language=en这句话，elipse就变成英文版的了

　　

　　

9，Stanford NLP 地址

http://nlp.stanford.edu/

转载于:https://www.cnblogs.com/qianwen/p/3854809.html

weixin_30636089

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。