word中文分词 一

        前言:这篇笔记算是 word中文分词 java库的入门笔记,记录下word分词的基本配置,和一个由于经验浅而踩的坑。

感谢word分词 的作者,word分词的github地址:https://github.com/ysc/word

1、maven依赖

<dependency>
  <groupId>org.apdplat</groupId>
  <artifactId>word</artifactId>
  <version>1.3</version>
</dependency>

2、自定义词典和停用词配置

        1)、在classpath目录下新建名为 word.local.conf的文本文件(没有txt后缀) (文件是utf-8编码)

        2)、新建自定义词典文件 mydic.txt,新建停用词词典文件 mystopword.txt。(文件使用utf-8编码,尽量英文文件名)

        3)、word.local.conf增加自定义词典配置,添加一行 "dic.path=H:/mydic.txt ",路径名称随意,文件名就是步骤2新建的

                 文件,也可以使用classpath指定,classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。

        4)、word.local.conf增加自定义停用词配置,添加一行  stopwords.path= "dic.path=H:/mystopword.txt ",,路径名称随

                 意,文件名就是步骤2新建的文件,也可以使用classpath指定,

                 classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。

        5)、接下来就算是入门了。。。。。。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值