lucene项目实战总结

最新推荐文章于 2022-04-15 16:10:43 发布

兔巴鸽

最新推荐文章于 2022-04-15 16:10:43 发布

阅读量499

点赞数

文章标签： lucene

本文链接：https://blog.csdn.net/qq_36812650/article/details/79491041

版权

lucene:简单点说就是扫描文章，将每一句话拆分成词语，并用这些词建立一个索引，因为各个国家语言不同，词语拆分的方法也不同，所以分词器也是不同的,将这些索引存储在特殊的文件中，当用户查询时根据建立的索引查找，类似于通过字典的检索字表查字的过程

Lucene 软件包分析

Lucene 软件包的发布形式是一个 JAR 文件，下面我们分析一下这个 JAR 文件里面的主要的 JAVA 包

Package: org.apache.lucene.document

这个包提供了一些为封装要索引的文档所需要的类，比如 Document, Field。这样，每一个文档最终被封装成了一个 Document 对象,可以把它当作字典。

Package: org.apache.lucene.analysis

这个包主要功能是对文档进行分词，因为文档在建立索引之前必须要进行分词，分词因为语言不同，句子的分词特点也不同，所以需要选择合适的分词器（中文分词器SmartChineseAnalyzer)，所以这个包的作用可以看成是为建立索引做准备工作。

Package: org.apache.lucene.index

这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面有两个基础的类：IndexWriter 和 IndexReader，其中 IndexWriter 是用来创建索引并添加文档到索引中的，IndexReader 是用来删除索引中的文档的。

Package: org.apache.lucene.search

这个包提供了对在建立好的索引上进行搜索所需要的类。比如 IndexSearcher 和 Hits, IndexSearcher 定义了在指定的索引上进行搜索的方法，Hits 用来保存搜索得到的结果。

建立索引:Lucene 提供了五个基础的类

Document

Document 是用来描述文档的，这里的文档可以指一个 HTML 页面，一封电子邮件，或者是一个文本文件。一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象想象成数据库中的一个记录，而每个 Field 对象就是记录的一个字段。

Field

Field 对象是用来描述一个文档的某个属性的，比如一封电子邮件的标题和内容可以用两个 Field 对象分别描述。

Analyzer

在一个文档被索引之前，首先需要对文档内容进行分词处理，这部分工作就是由 Analyzer 来做的。Analyzer 类是一个抽象类，它有多个实现。针对不同的语言和应用需要选择适合的 Analyzer。Analyzer 把分词后的内容交给 IndexWriter 来建立索引。

IndexWriter

IndexWriter 是 Lucene 用来创建索引的一个核心的类，他的作用是把一个个的 Document 对象加到索引中来。

Directory

这个类代表了 Lucene 的索引的存储的位置，这是一个抽象类，它目前有两个实现，第一个是 FSDirectory，它表示一个存储在文件系统中的索引的位置。第二个是 RAMDirectory，它表示一个存储在内存当中的索引的位置。

搜索文档：五个基础类

Query

这是一个抽象类，他有多个实现，比如 TermQuery, BooleanQuery, PrefixQuery. 这个类的目的是把用户输入的查询字符串封装成 Lucene 能够识别的 Query。

Term

Term 是搜索的基本单位，一个 Term 对象有两个 String 类型的域组成。生成一个 Term 对象可以有如下一条语句来完成：Term term = new Term(“fieldName”,”queryWord”); 其中第一个参数代表了要在文档的哪一个 Field 上进行查找，第二个参数代表了要查询的关键词。

TermQuery

TermQuery 是抽象类 Query 的一个子类，它同时也是 Lucene 支持的最为基本的一个查询类。生成一个 TermQuery 对象由如下语句完成： TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的构造函数只接受一个参数，那就是一个 Term 对象。

IndexSearcher

IndexSearcher 是用来在建立好的索引上进行搜索的。它只能以只读的方式打开一个索引，所以可以有多个 IndexSearcher 的实例在一个索引上进行操作。

Hits

Hits 是用来保存搜索的结果的。

介绍完这些搜索所必须的类之后，我们就开始在之前所建立的索引上进行搜索了，清单 2 给出了完成搜索功能所需要的代码。

以下用一个博客网站索引做案列，实现全站关键字搜索博客功能。

第一步：建立写索引，并以中文分词器进行分词（每种语言分词器不同），通俗讲writer就是一只笔,一会用它往字典里建立索引

	/**
	 * 获取IndexWriter实例
	 * @return
	 * @throws Exception
	 */
	private IndexWriter getWriter()throws Exception{
		dir=FSDirectory.open(Paths.get("C://lucene"));  //设置索引文件生成的位置
		SmartChineseAnalyzer analyzer=new SmartChineseAnalyzer();//中文分词器
		IndexWriterConfig iwc=new IndexWriterConfig(analyzer);
		IndexWriter writer=new IndexWriter(dir, iwc);
		return writer;
	}

第二步.向字典里添加索引，将博客的每个字段添加索引

/**
	 * 添加博客索引
	 * @param blog
	 * @throws Exception
	 */
	public void addIndex(Blog blog)throws Exception{
		IndexWriter writer=getWriter();
		Document doc=new Document();
		doc.add(new StringField("id",String.valueOf(blog.getId()),Field.Store.YES));
		doc.add(new TextField("title",blog.getTitle(),Field.Store.YES));
		doc.add(new StringField("releaseDate",DateUtil.formatDate(new Date(), "yyyy-MM-dd"),Field.Store.YES));
		doc.add(new TextField("content",blog.getContentNoTag(),Field.Store.YES));
		writer.addDocument(doc);
		writer.close();
	}

第三步.查询索引

public List<Blog> indexBlog(String conditon) throws Exception{
        dir=FSDirectory.open(Paths.get("C://lucene"));
        IndexReader indexReader=DirectoryReader.open(dir);
        IndexSearcher searcher=new IndexSearcher(indexReader);
        
        BooleanQuery.Builder booleanQuery=new BooleanQuery.Builder();
        SmartChineseAnalyzer analyzer=new SmartChineseAnalyzer();
        QueryParser parser=new QueryParser("title", analyzer);
        Query query=parser.parse(conditon);
        //多条件查询，取前100条记录
        booleanQuery.add(query, BooleanClause.Occur.SHOULD);
        TopDocs hits=searcher.search(booleanQuery.build(), 100);

        List<Blog> blogList=new LinkedList<Blog>();
        //遍历得分前100的记录
        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=searcher.doc(scoreDoc.doc);
            Blog blog=new Blog();
            blog.setId(Integer.parseInt(doc.get("id")));
            blog.setReleaseDateStr(doc.get("releaseDate"));
            String title=doc.get("title");
            String content=doc.get("content");
            ....
            blogList.add(blog);
        }
        return blogList;   
    }

第四步：根据id字段修改索引

/**
	 * 修改索引
	 * @param blog
	 * @throws Exception 
	 */
	public void updateIndex(Blog blog) throws Exception{
		IndexWriter writer=getWriter();
		Document doc=new Document();
		doc.add(new StringField("id",String.valueOf(blog.getId()),Field.Store.YES));
		doc.add(new TextField("title",blog.getTitle(),Field.Store.YES));
		doc.add(new StringField("releaseDate",DateUtil.formatDate(new Date(), "yyyy-MM-dd"),Field.Store.YES));
		doc.add(new TextField("content",blog.getContentNoTag(),Field.Store.YES));
		writer.updateDocument(new Term("id", String.valueOf(blog.getId())), doc);
		writer.close();
	}

第五步：根据id字段删除博客索引

/**
	 * 根据博客id删除博客
	 * @param blogId
	 * @throws Exception 
	 */
	public void deleteIndex(String blogId) throws Exception{
		IndexWriter writer=getWriter();
		writer.deleteDocuments(new Term("id",blogId));
		writer.forceMergeDeletes();
		writer.commit();
		writer.close();
		
	}

升级版多条件查询，根据博客内容和标题索引，索引得分高则靠前，高亮显示查询关键字

/**
	 * 查询索引
	 * @param conditon
	 * @return
	 * @throws Exception
	 */
	public List<Blog> indexBlog(String conditon) throws Exception{
		dir=FSDirectory.open(Paths.get("C://lucene"));
		IndexReader indexReader=DirectoryReader.open(dir);
		IndexSearcher searcher=new IndexSearcher(indexReader);
		
		BooleanQuery.Builder booleanQuery=new BooleanQuery.Builder();
		SmartChineseAnalyzer analyzer=new SmartChineseAnalyzer();
		QueryParser parser=new QueryParser("title", analyzer);
		Query query=parser.parse(conditon);
		
		QueryParser parser2=new QueryParser("content", analyzer);
		Query query2=parser2.parse(conditon);
		//多条件查询，取前100条记录
		booleanQuery.add(query, BooleanClause.Occur.SHOULD);
		booleanQuery.add(query2, BooleanClause.Occur.SHOULD);
		TopDocs hits=searcher.search(booleanQuery.build(), 100);
		//根据得分排序,主要以标题得分排序
		QueryScorer scorer=new QueryScorer(query);
		Fragmenter fragmenter=new SimpleSpanFragmenter(scorer);
		//加入高亮
		SimpleHTMLFormatter simpleHTMLFormatter=new SimpleHTMLFormatter("<b><font color='red'>", "</font></b>");
		Highlighter highlighter=new Highlighter(simpleHTMLFormatter, scorer);
		highlighter.setTextFragmenter(fragmenter);
		
		List<Blog> blogList=new LinkedList<Blog>();
		//遍历得分前100的记录
		for(ScoreDoc scoreDoc:hits.scoreDocs){
			Document doc=searcher.doc(scoreDoc.doc);
			Blog blog=new Blog();
			blog.setId(Integer.parseInt(doc.get("id")));
			blog.setReleaseDateStr(doc.get("releaseDate"));
			String title=doc.get("title");
			String content=doc.get("content");
			//如果标题不为空，判断标题中是否含有查询字段，并将查询字段高亮显示
			if(title!=null){
				TokenStream tokenStream=analyzer.tokenStream("title", new StringReader(title));
				String hTitle=highlighter.getBestFragment(tokenStream, title);
				if(StringUtil.isEmpty(hTitle)){
					blog.setTitle(title);
				}else{
					blog.setTitle(hTitle);
				}
			}
			
			if(content!=null){
				TokenStream tokenStream=analyzer.tokenStream("content", new StringReader(content));
				String hContent=highlighter.getBestFragment(tokenStream, content);
				if(StringUtil.isEmpty(hContent)){
					if(content.length()<=200){
						blog.setContent(content);						
					}else{
						blog.setContent(content.substring(0, 200));	
					}
				}else{
					blog.setContent(hContent);
				}
			}
			blogList.add(blog);
		}
		return blogList;
	}

兔巴鸽

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
lucene项目实战总结

lucene:简单点说就是扫描文章，将每一句话拆分成词语，并用这些词建立一个索引，因为各个国家语言不同，词语拆分的方法也不同，所以分词器也是不同的,将这些索引存储在特殊的文件中，当用户查询时根据建立的索引查找，类似于通过字典的检索字表查字的过程Lucene 软件包分析Lucene 软件包的发布形式是一个 JAR 文件，下面我们分析一下这个 JAR 文件里面的主要的 JAVA 包Package: ...
复制链接

扫一扫