stanford-segmenter一个简单例子

最新推荐文章于 2024-08-22 09:34:07 发布

sure-fire

最新推荐文章于 2024-08-22 09:34:07 发布

阅读量2.5k

点赞数

分类专栏： NLP 文章标签：斯坦福大学 nlp 分词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zl19890124/article/details/46706273

版权

本文介绍了如何使用Stanford Segmenter进行分词。首先，该工具支持阿拉伯语和汉语，基于CRFs的原理。步骤包括：创建项目，放置所需文件，确保使用JDK 1.8。在代码运行配置中设置VM参数以避免内存问题。通过示例展示运行结果，同时指出当处理中文输出时可能需要调整控制台编码以避免乱码。

摘要由CSDN通过智能技术生成

1.简介

stanford分词目前支持 Arabic 和 Chinese。它的原理是基于CRFs, CRFs分词的原理不难懂，就是把分词当作另一种形式的命名实体识别，利用特征建立概率图模型后，用Veterbi算法求最短路径。stanford nlp提供了源码demo,目前的版本是3.5.2。

下载地址：http://nlp.stanford.edu/software/segmenter.shtml

2.例子

step1: 新建project，将下载的stanford-segmenter-2015-04-20.zip解压，把解压后的arabic,data文件夹以及3个jar包和test.simp.utf8都复制到新建的project的根目录下，把SegDemo.java放到src源代码目录下。（注意：JDK需要1.8）如下图所示

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。