Lucene几个分词技术的比较

最新推荐文章于 2022-01-25 11:37:43 发布

wittdong

最新推荐文章于 2022-01-25 11:37:43 发布

阅读量5.2k

点赞数 3

分类专栏：搜索引擎文章标签： lucene

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flyingdog123/article/details/67637783

版权

一、分词器简单介绍

Lucene的分词技术很多，我下面介绍集中常用的分词技术。

1）标准分词技术（StandardAnalyzer）：标准分词技术对英文来说是不错的，把单词分成一个一个的词根，但是对于中文来说，只是简单的把中文分成一个一个的汉字。

2）IK中文分词器（IKAnalyzer）：结合词典分词和文法分析算法的中文分词技术，能够对词典进行扩展，是一个很好的中文分词器。

3）空格分词器（WhitespaceAnalyzer）：按照空格切分字符串。

4）简单分词器（SimpleAnalyzer）：根据标点符号分词。

5）二分法分词器（CJKAnalyzer）：二分法分词技术中每个汉字都会和它前边和后边的汉字组成一个词，也就是说每个汉字都会出现两次，除了首字和末字（前提是纯汉字，没有英文，因为英文会根据词根来分词），这种分词技术会有太多的词，会产生太多冗余。

6）关键词分词器（KeywordAnalyzer）：不进行分割。

7）被忽略词分词器（StopAnalyzer）：被忽略词如标点符号，这种分词技术和SimpleAnalyzer结果很像。

二、一个简单的实例

package com.dong.lucene;

import java.io.IOException;
import java.io.StringReader;<

最低0.47元/天解锁文章

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Lucene几个分词技术的比较

一、分词器简单介绍 Lucene的分词技术很多，我下面介绍集中常用的分词技术。1）标准分词技术（StandardAnalyzer）：标准分词技术对英文来说是不错的，把单词分成一个一个的词根，但是对于中文来说，只是简单的把中文分成一个一个的汉字。2）IK中文分词器（IKAnalyzer）：结合词典分词和文法分析算法的中文分词技术，能够对词典进行扩展，是一个很好
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。