【搜索引擎】浅谈Lucene在项目中的应用

最新推荐文章于 2024-09-21 10:38:43 发布

苏摩084

最新推荐文章于 2024-09-21 10:38:43 发布

阅读量226

点赞数

分类专栏：编程技术文章标签： java lucene springboot

本文链接：https://blog.csdn.net/sumo084/article/details/101083789

版权

编程技术专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Lucene是全文检索引擎工具包，这里要注意，它不是完整的搜索引擎，它只是一个工具包，下一篇要讲的Elasticsearch才是搜索引擎。Lucene也是Apache的。
博主是做java后台开发的，平时不怎么写Web端代码，所以这篇博客的代码也是博主照着“java知识分享网”上面的一个博客系统来敲的，也算是“现炒现卖”，和大家一起学习。
第一步，要在pom.xml文件里面添加Shiro依赖，如下。

<dependency>
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-core</artifactId>
	<version>5.3.1</version>
</dependency>
<dependency>
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-queryparser</artifactId>
	<version>5.3.1</version>
</dependency>
<dependency>
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-analyzers-common</artifactId>
	<version>5.3.1</version>
</dependency>
<dependency>
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-analyzers-smartcn</artifactId>
	<version>5.3.1</version>
</dependency>
<dependency>
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-highlighter</artifactId>
	<version>5.3.1</version>
</dependency>

第二步，编写Lucene工具类，如下，这是一个博客系统的Lucene工具类，实现了文档的增删改查，注释我写的非常详细，大家应该都能看懂。

package com.zznode.lucene;

import java.io.StringReader;
import java.nio.file.Paths;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.LinkedList;
import java.util.List;

import org.apache.commons.lang3.StringUtils;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.BooleanClause;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Fragmenter;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.search.highlight.SimpleSpanFragmenter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.assertj.core.util.DateUtil;
import org.mockito.internal.util.StringUtil;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Component;

import com.zznode.entity.Blog;

import io.micrometer.core.instrument.util.StringEscapeUtils;
import lombok.extern.slf4j.Slf4j;

/**
 * 博客索引类
 * 
 * @author Administrator
 *
 */
@Component
public class BlogIndex {

	@Value("${lucene.indexDir}")
	private String indexDir;

	private Directory dir;

	private SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");

	/**
	 * 获取IndexWriter实例
	 * 
	 * @return
	 * @throws Exception
	 */
	private IndexWriter getWriter() throws Exception {
		// 索引库存放的位置
		dir = FSDirectory.open(Paths.get(indexDir));
		// 创建标准分词器
		// Analyzer analyzer = new StandardAnalyzer();
		// 创建中文分词器
		SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();
		// 创建IndexWriterConfig，注入分词器
		IndexWriterConfig iwc = new IndexWriterConfig(analyzer);
		// 创建写索引实例
		IndexWriter writer = new IndexWriter(dir, iwc);
		return writer;
	}

	/**
	 * 添加博客索引
	 * 
	 * @param blog
	 * @throws Exception
	 */
	public void addIndex(Blog blog) throws Exception {
		// 获得写索引实例
		IndexWriter writer = getWriter();
		// 创建一个文档
		Document doc = new Document();
		// 可以把每个Document理解成数据库表中的一行数据，这行数据有四个字段，分别是id、title、releaseDate、content
		doc.add(new StringField("id", String.valueOf(blog.getId()), Field.Store.YES));
		doc.add(new TextField("title", blog.getTitle(), Field.Store.YES));
		doc.add(new StringField("releaseDate", sdf.format(new Date()), Field.Store.YES));
		doc.add(new TextField("content", blog.getContentNoTag(), Field.Store.YES));
		// 将这个文档添加进索引实例
		writer.addDocument(doc);
		writer.close();
	}

	/**
	 * 删除指定博客的索引
	 * 
	 * @param blogId
	 * @throws Exception
	 */
	public void deleteIndex(String blogId) throws Exception {
		// 获得写索引实例
		IndexWriter writer = getWriter();
		// 将索引实例中的这个文档删除
		writer.deleteDocuments(new Term("id", blogId));
		// 强制删除
		writer.forceMergeDeletes();
		writer.commit();
		writer.close();
	}

	/**
	 * 更新博客索引
	 * 
	 * @param blog
	 * @throws Exception
	 */
	public void updateIndex(Blog blog) throws Exception {
		// 获得写索引实例
		IndexWriter writer = getWriter();
		// 创建一个文档
		Document doc = new Document();
		doc.add(new StringField("id", String.valueOf(blog.getId()), Field.Store.YES));
		doc.add(new TextField("title", blog.getTitle(), Field.Store.YES));
		doc.add(new StringField("releaseDate", sdf.format(new Date()), Field.Store.YES));
		doc.add(new TextField("content", blog.getContentNoTag(), Field.Store.YES));
		// 更新进索引实例中的这个文档
		writer.updateDocument(new Term("id", String.valueOf(blog.getId())), doc);
		writer.close();
	}

	/**
	 * 查询博客信息
	 * 
	 * @param q
	 * @return
	 * @throws Exception
	 */
	public List<Blog> searchBlog(String q) throws Exception {
		dir = FSDirectory.open(Paths.get(indexDir));
		// 创建读索引实例
		IndexReader reader = DirectoryReader.open(dir);
		// 创建索引查询实例
		IndexSearcher is = new IndexSearcher(reader);
		// 创建多条件查询实例
		BooleanQuery.Builder booleanQuery = new BooleanQuery.Builder();
		// 创建中文分词器
		SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();
		// 查询title字段
		QueryParser parser = new QueryParser("title", analyzer);
		Query query = parser.parse(q);
		// 查询content字段
		QueryParser parser2 = new QueryParser("content", analyzer);
		Query query2 = parser2.parse(q);

		// 将上面两个查询实例添加进booleanQuery，其中BooleanClause是表示布尔查询子句关系的类
		// BooleanClause.Occur.MUST：必须包含
		// BooleanClause.Occur.MUST_NOT：不能包含
		// BooleanClause.Occur.SHOULD：可以包含
		booleanQuery.add(query, BooleanClause.Occur.SHOULD);
		booleanQuery.add(query2, BooleanClause.Occur.SHOULD);

		// 返回查询结果的前100条
		TopDocs hits = is.search(booleanQuery.build(), 100);
		
		// 计算得分。
		QueryScorer scorer = new QueryScorer(query);
		// 获取得分高的片段，就是得到一段包含所查询的关键字的摘要。
		// 比如你在百度中搜索“java”，会查出下面这些内容：
		// “java-中国数万程序员的选择-官方首页
		// java-致力于互联网应用研发培训,中国程序员认可的培训机构......”这就叫摘要
		Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);
		
		// 对查询的数据进行格式化（默认是粗体）
		SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<b><font color='red'>", "</font></b>");
		// 高亮显示
		Highlighter highlighter = new Highlighter(simpleHTMLFormatter, scorer);
		// 把片段set进去
		highlighter.setTextFragmenter(fragmenter);

		List<Blog> blogList = new LinkedList<Blog>();
		for (ScoreDoc scoreDoc : hits.scoreDocs) {
			Document doc = is.doc(scoreDoc.doc);
			Blog blog = new Blog();
			blog.setId(Integer.parseInt(doc.get("id")));
			blog.setReleaseDateStr(doc.get("releaseDate"));
			String title = doc.get("title");
			// 将content内容转义，比如将<div></div>标签转义成&lt;div&gt;&lt;/div&gt;
			String content = StringEscapeUtils.escapeHtml(doc.get("content"));
			if (title != null) {
				// TokenStream将查询出来的title转化成流（或者说转化成很多片段）
				TokenStream tokenStream = analyzer.tokenStream("title", new StringReader(title));
				// 将权重高的摘要（即最佳片段）显示出来
				String hTitle = highlighter.getBestFragment(tokenStream, title);
				if (StringUtils.isBlank(hTitle)) {
					blog.setTitle(title);
				} else {
					blog.setTitle(hTitle);
				}
			}

			if (content != null) {
				TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(content));
				String hContent = highlighter.getBestFragment(tokenStream, content);
				if (StringUtils.isBlank(hContent)) {
					if (content.length() <= 200) {
						blog.setContent(content);
					} else {
						blog.setContent(content.substring(0, 200));
					}
				} else {
					blog.setContent(hContent);
				}
			}
			blogList.add(blog);
		}
		return blogList;
	}
}

下面，我们看一个controller的save方法的例子，代码如下。在添加或修改博客信息入库之后，也要相应的在lucene索引实例里面添加或修改一个文档。

    @RequestMapping("/save")
	public String save(Blog blog, HttpServletResponse response) throws Exception {
		int resultTotal = 0;
		if (blog.getId() == null) {
			// 如果博客id是空，说明是增加记录
			resultTotal = blogService.add(blog);
			// 在lucene索引实例里面增加一个文档
			blogIndex.addIndex(blog);
		} else {
			// 如果博客id不是空，说明是更新记录
			resultTotal = blogService.update(blog);
			// 在lucene索引实例里面更新加一个文档
			blogIndex.updateIndex(blog);
		}
		JSONObject result = new JSONObject();
		if (resultTotal > 0) {
			result.put("success", true);
		} else {
			result.put("success", false);
		}
		ResponseUtil.write(response, result);
		return null;
	}

我们再看一个controller的delete方法的例子，代码如下。在从数据库里面删除博客信息之后，也要相应的在lucene索引实例里面删除这些文档。

	@RequestMapping("/delete")
	public String delete(@RequestParam(value = "ids", required = false) String ids, HttpServletResponse response)
			throws Exception {
		String[] idsStr = ids.split(",");
		for (int i = 0; i < idsStr.length; i++) {
			blogService.delete(Integer.parseInt(idsStr[i]));
			// 在lucene索引实例里面删除加一个文档
			blogIndex.deleteIndex(idsStr[i]);
		}
		JSONObject result = new JSONObject();
		result.put("success", true);
		ResponseUtil.write(response, result);
		return null;
	}

最后我们再看一个controller的search方法的例子，代码如下。

	@RequestMapping("/q")
	public ModelAndView search(@RequestParam(value = "q", required = false) String q,
			@RequestParam(value = "page", required = false) String page, HttpServletRequest request) throws Exception {
		// 设置每一页的大小是3条记录
		int pageSize = 3;
		if (StringUtil.isEmpty(page)) {
			// 如果page为空，那么就默认是第一页
			page = "1";
		}
		ModelAndView mav = new ModelAndView();
		mav.addObject("pageTitle", "搜索关键字'" + q + "'结果页面_java开源博客系统");
		mav.addObject("mainPage", "foreground/blog/result.jsp");
		// lucene索引实例里面查找关键字q的信息
		List<Blog> blogList = blogIndex.searchBlog(q);
		// blogList长度，page*pageSize，取小的，赋给toIndex
		Integer toIndex = blogList.size() >= Integer.parseInt(page) * pageSize ? Integer.parseInt(page) * pageSize
				: blogList.size();
		// 截取（page-1）*pageSize到toIndex的blogList
		mav.addObject("blogList", blogList.subList((Integer.parseInt(page) - 1) * pageSize, toIndex));
		mav.addObject("pageCode", this.genUpAndDownPageCode(Integer.parseInt(page), blogList.size(), q, pageSize,
				request.getServletContext().getContextPath()));
		mav.addObject("q", q);
		mav.addObject("resultTotal", blogList.size());
		mav.setViewName("mainTemp");
		return mav;
	}