一个封装了StandardTokenizer的自定义Lucene Analyzer

最新推荐文章于 2024-05-30 10:19:23 发布

杨鑫newlfe

最新推荐文章于 2024-05-30 10:19:23 发布

阅读量2.4k

点赞数

分类专栏：大数据挖掘与大数据应用案例 Java

本文链接：https://blog.csdn.net/u012965373/article/details/50756407

版权

大数据挖掘与大数据应用案例同时被 2 个专栏收录

536 篇文章 1680 订阅 ¥9.90 ¥99.00

订阅专栏

Java

427 篇文章 33 订阅

订阅专栏

本文介绍了一个由YangXin编写的自定义Lucene Analyzer，名为MyAnalyzer。这个Analyzer封装了StandardTokenizer，并结合了LowerCaseFilter、LengthFilter、StopFilter和PorterStemFilter，用于对输入文本进行标准化处理，包括转换为小写、长度限制和词干提取等操作。

摘要由CSDN通过智能技术生成

<strong><span style="font-size:18px;">/***
 * @author YangXin
 * @info一个封装了StandardTokenizer的LuceneAnalyzer
 * 带有小写过滤器的MyAnalyzer
 */
package unitTen;

import java.io.Reader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.LengthFilter;
import org.apache.lucene.analysis.LowerCaseFilter;
import org.apache.lucene.analysis.PorterStemFilter;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.standard.StandardTokenizer;
import org.apache.lucene.util.Version;

public class MyAnalyzer extends Analyzer {

	 @SuppressWarnings("deprecation")
	  @Override

了解本专栏