Lucene 分词统计分词次数

最新推荐文章于 2021-02-24 05:02:12 发布

qq_27217373

最新推荐文章于 2021-02-24 05:02:12 发布

阅读量821

点赞数 1

文章标签： Lucene 分词统计分词数量 lucene 根据分词数目不同存入不同文件

本文链接：https://blog.csdn.net/qq_27217373/article/details/51544434

版权

该代码示例展示了如何利用Lucene的IKAnalyzer分词器对文本进行分词，并统计每个词出现的次数。通过读取文件内容，创建索引，然后对文本进行多次分词操作，将分词结果存储到不同的文件中，根据词的长度进行区分。

摘要由CSDN通过智能技术生成

package testSolrJ;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;

import org.apache.commons.io.FileUtils;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;

/**
*
* @author Administrator
*/
public class fenci {
   static String fileName = null;
   static String pathRead = null;
   static String pathWrite = null;

   private static IndexWriter indexDir = null;

   private Version luceneVersion