Lucene 5.3 使用Lucene自定义StopAnalyzer

最新推荐文章于 2020-10-19 15:13:53 发布

CS番茄

最新推荐文章于 2020-10-19 15:13:53 发布

阅读量912

点赞数

分类专栏： Lucene

本文链接：https://blog.csdn.net/u010167215/article/details/49070263

版权

本文介绍了如何在Lucene 5.3中使用自定义的StopAnalyzer，首先展示了不包含原有分词器StopAnalyzer信息的代码示例，接着列举了StopAnalyzer默认的过滤单词列表，最后探讨了如何结合这些信息来实现自定义的停用词过滤。

摘要由CSDN通过智能技术生成

一、不包含原来分词器StopAnalyZer信息

Code 1：

public class MyStopAnalyzer extends Analyzer {
        //一组数组产生分词对象
        private CharArraySet stopWordsSet;//自己要屏蔽的一些单词
      
        //构造函数
        public  MyStopAnalyzer(String[] stopWords) {
                //将String数组转换为<span style="font-family: Arial, Helvetica, sans-serif;">CharArraySet</span>

                stopWordsSet  = StopFilter.makeStopSet(stopWords, true);  //CharArraySet
        }

        @Override
        protected TokenStreamComponents createComponents(String arg0) {
                //创建一个分词器
                LetterTokenizer letterTokenizer = new LetterTokenizer();  
              
                //创建一系列分词过滤器
                LowerCaseFilter lowerCaseFilter = new LowerCaseFilter(letterTokenizer);
                StopFilte

最低0.47元/天解锁文章

CS番茄

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Lucene 5.3 使用Lucene自定义StopAnalyzer

一、不包含原来分词器StopAnalyZer信息Code 1：public class MyStopAnalyzer extends Analyzer { //一组数组产生分词对象 private CharArraySet stopWordsSet;//自己要屏蔽的一些单词 //构造函数 public My
复制链接

扫一扫