完整实用篇：Java分布式中文分词组件-word分词器

最新推荐文章于 2024-08-16 08:48:46 发布

小栋哟

最新推荐文章于 2024-08-16 08:48:46 发布

阅读量2.3k

点赞数 1

分类专栏： Java 文章标签： java 分词中文分词 word

本文链接：https://blog.csdn.net/Xiaodongge521/article/details/105366221

版权

Java 专栏收录该内容

35 篇文章 0 订阅

订阅专栏

这次分享一个实用过的分词器--word分词器，详细信息可以点我看看

没有废话直接上代码，代码通俗易懂，如果实在还是有问题可以留言讨论；

1.引入pom信息

<dependency>
    <groupId>org.apdplat</groupId>
    <artifactId>word</artifactId>
    <version>1.3</version>
</dependency>

2.代码部分

 public   static void test1() {
        //根据词库进行分词(没有词库就不用设置)
        WordConfTools.set("dic.path",  "D:\\wdd\\file\\bacco_dict.txt");
        // 更改词典路径之后，重新加载词典
        DictionaryFactory.reload();
        //关闭默认配置监控目录功能(如果不关闭的话程序不会自动停止...)
         WordConfTools.set("auto.detect",  "false");
         //分词mode
        List<Word> words = WordSegmenter.seg("烟草混合物及其制备方法", SegmentationAlgorithm.MinimalWordCount);
        for (Word w : words) {
            //分词后的结果
            System.out.println(w.getText());
        }

    }

3.结果

这样就完成了分词操作。

如果是springboot项目集成这个功能的话，可能会出现一个报错，如下图，如果没有报错就忽略。。。

出现这个问题是因为日志的jar冲突了，所以需要排除解决，只需要把pom改为下面这样既可

   <dependency>
            <groupId>org.apdplat</groupId>
            <artifactId>word</artifactId>
            <version>1.3</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-api</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>ch.qos.logback</groupId>
                    <artifactId>logback-classic</artifactId>
                </exclusion>
            </exclusions>
        </dependency>