Lucene是全文检索引擎工具包,这里要注意,它不是完整的搜索引擎,它只是一个工具包,下一篇要讲的Elasticsearch才是搜索引擎。Lucene也是Apache的。
博主是做java后台开发的,平时不怎么写Web端代码,所以这篇博客的代码也是博主照着“java知识分享网”上面的一个博客系统来敲的,也算是“现炒现卖”,和大家一起学习。
第一步,要在pom.xml文件里面添加Shiro依赖,如下。
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-core</artifactId>
<version>5.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-queryparser</artifactId>
<version>5.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-analyzers-common</artifactId>
<version>5.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-analyzers-smartcn</artifactId>
<version>5.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-highlighter</artifactId>
<version>5.3.1</version>
</dependency>
第二步,编写Lucene工具类,如下,这是一个博客系统的Lucene工具类,实现了文档的增删改查,注释我写的非常详细,大家应该都能看懂。
package com.zznode.lucene;
import java.io.StringReader;
import java.nio.file.Paths;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.LinkedList;
import java.util.List;
import org.apache.commons.lang3.StringUtils;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.BooleanClause;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Fragmenter;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.search.highlight.SimpleSpanFragmenter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.assertj.core.util.DateUtil;
import org.mockito.internal.util.StringUtil;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Component;
import com.zznode.entity.Blog;
import io.micrometer.core.instrument.util.StringEscapeUtils;
import lombok.extern.slf4j.Slf4j;
/**
* 博客索引类
*
* @author Administrator
*
*/
@Component
public class BlogIndex {
@Value("${lucene.indexDir}")
private String indexDir;
private Directory dir;
private SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");
/**
* 获取IndexWriter实例
*
* @return
* @throws Exception
*/
private IndexWriter getWriter() throws Exception {
// 索引库存放的位置
dir = FSDirectory.open(Paths.get(indexDir));
// 创建标准分词器
// Analyzer analyzer = new StandardAnalyzer();
// 创建中文分词器
SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();
// 创建IndexWriterConfig,注入分词器
IndexWriterConfig iwc = new IndexWriterConfig(analyzer);
// 创建写索引实例
IndexWriter writer = new IndexWriter(dir, iwc);
return writer;
}
/**
* 添加博客索引
*
* @param blog
* @throws Exception
*/
public void addIndex(Blog blog) throws Exception {
// 获得写索引实例
IndexWriter writer = getWriter();
// 创建一个文档
Document doc = new Document();
// 可以把每个Document理解成数据库表中的一行数据,这行数据有四个字段,分别是id、title、releaseDate、content
doc.add(new StringField("id", String.valueOf(blog.getId()), Field.Store.YES));
doc.add(new TextField("title", blog.getTitle(), Field.Store.YES));
doc.add(new StringField("releaseDate", sdf.format(new Date()), Field.Store.YES));
doc.add(new TextField("content", blog.getContentNoTag(), Field.Store.YES));
// 将这个文档添加进索引实例
writer.addDocument(doc);
writer.close();
}
/**
* 删除指定博客的索引
*
* @param blogId
* @throws Exception
*/
public void deleteIndex(String blogId) throws Exception {
// 获得写索引实例
IndexWriter writer = getWriter();
// 将索引实例中的这个文档删除
writer.deleteDocuments(new Term("id", blogId));
// 强制删除
writer.forceMergeDeletes();
writer.commit();
writer.close();
}
/**
* 更新博客索引
*
* @param blog
* @throws Exception
*/
public void updateIndex(Blog blog) throws Exception {
// 获得写索引实例
IndexWriter writer = getWriter();
// 创建一个文档
Document doc = new Document();
doc.add(new StringField("id", String.valueOf(blog.getId()), Field.Store.YES));
doc.add(new TextField("title", blog.getTitle(), Field.Store.YES));
doc.add(new StringField("releaseDate", sdf.format(new Date()), Field.Store.YES));
doc.add(new TextField("content", blog.getContentNoTag(), Field.Store.YES));
// 更新进索引实例中的这个文档
writer.updateDocument(new Term("id", String.valueOf(blog.getId())), doc);
writer.close();
}
/**
* 查询博客信息
*
* @param q
* @return
* @throws Exception
*/
public List<Blog> searchBlog(String q) throws Exception {
dir = FSDirectory.open(Paths.get(indexDir));
// 创建读索引实例
IndexReader reader = DirectoryReader.open(dir);
// 创建索引查询实例
IndexSearcher is = new IndexSearcher(reader);
// 创建多条件查询实例
BooleanQuery.Builder booleanQuery = new BooleanQuery.Builder();
// 创建中文分词器
SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();
// 查询title字段
QueryParser parser = new QueryParser("title", analyzer);
Query query = parser.parse(q);
// 查询content字段
QueryParser parser2 = new QueryParser("content", analyzer);
Query query2 = parser2.parse(q);
// 将上面两个查询实例添加进booleanQuery,其中BooleanClause是表示布尔查询子句关系的类
// BooleanClause.Occur.MUST:必须包含
// BooleanClause.Occur.MUST_NOT:不能包含
// BooleanClause.Occur.SHOULD:可以包含
booleanQuery.add(query, BooleanClause.Occur.SHOULD);
booleanQuery.add(query2, BooleanClause.Occur.SHOULD);
// 返回查询结果的前100条
TopDocs hits = is.search(booleanQuery.build(), 100);
// 计算得分。
QueryScorer scorer = new QueryScorer(query);
// 获取得分高的片段,就是得到一段包含所查询的关键字的摘要。
// 比如你在百度中搜索“java”,会查出下面这些内容:
// “java-中国数万程序员的选择-官方首页
// java-致力于互联网应用研发培训,中国程序员认可的培训机构......”这就叫摘要
Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);
// 对查询的数据进行格式化(默认是粗体)
SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<b><font color='red'>", "</font></b>");
// 高亮显示
Highlighter highlighter = new Highlighter(simpleHTMLFormatter, scorer);
// 把片段set进去
highlighter.setTextFragmenter(fragmenter);
List<Blog> blogList = new LinkedList<Blog>();
for (ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = is.doc(scoreDoc.doc);
Blog blog = new Blog();
blog.setId(Integer.parseInt(doc.get("id")));
blog.setReleaseDateStr(doc.get("releaseDate"));
String title = doc.get("title");
// 将content内容转义,比如将<div></div>标签转义成<div></div>
String content = StringEscapeUtils.escapeHtml(doc.get("content"));
if (title != null) {
// TokenStream将查询出来的title转化成流(或者说转化成很多片段)
TokenStream tokenStream = analyzer.tokenStream("title", new StringReader(title));
// 将权重高的摘要(即最佳片段)显示出来
String hTitle = highlighter.getBestFragment(tokenStream, title);
if (StringUtils.isBlank(hTitle)) {
blog.setTitle(title);
} else {
blog.setTitle(hTitle);
}
}
if (content != null) {
TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(content));
String hContent = highlighter.getBestFragment(tokenStream, content);
if (StringUtils.isBlank(hContent)) {
if (content.length() <= 200) {
blog.setContent(content);
} else {
blog.setContent(content.substring(0, 200));
}
} else {
blog.setContent(hContent);
}
}
blogList.add(blog);
}
return blogList;
}
}
下面,我们看一个controller的save方法的例子,代码如下。在添加或修改博客信息入库之后,也要相应的在lucene索引实例里面添加或修改一个文档。
@RequestMapping("/save")
public String save(Blog blog, HttpServletResponse response) throws Exception {
int resultTotal = 0;
if (blog.getId() == null) {
// 如果博客id是空,说明是增加记录
resultTotal = blogService.add(blog);
// 在lucene索引实例里面增加一个文档
blogIndex.addIndex(blog);
} else {
// 如果博客id不是空,说明是更新记录
resultTotal = blogService.update(blog);
// 在lucene索引实例里面更新加一个文档
blogIndex.updateIndex(blog);
}
JSONObject result = new JSONObject();
if (resultTotal > 0) {
result.put("success", true);
} else {
result.put("success", false);
}
ResponseUtil.write(response, result);
return null;
}
我们再看一个controller的delete方法的例子,代码如下。在从数据库里面删除博客信息之后,也要相应的在lucene索引实例里面删除这些文档。
@RequestMapping("/delete")
public String delete(@RequestParam(value = "ids", required = false) String ids, HttpServletResponse response)
throws Exception {
String[] idsStr = ids.split(",");
for (int i = 0; i < idsStr.length; i++) {
blogService.delete(Integer.parseInt(idsStr[i]));
// 在lucene索引实例里面删除加一个文档
blogIndex.deleteIndex(idsStr[i]);
}
JSONObject result = new JSONObject();
result.put("success", true);
ResponseUtil.write(response, result);
return null;
}
最后我们再看一个controller的search方法的例子,代码如下。
@RequestMapping("/q")
public ModelAndView search(@RequestParam(value = "q", required = false) String q,
@RequestParam(value = "page", required = false) String page, HttpServletRequest request) throws Exception {
// 设置每一页的大小是3条记录
int pageSize = 3;
if (StringUtil.isEmpty(page)) {
// 如果page为空,那么就默认是第一页
page = "1";
}
ModelAndView mav = new ModelAndView();
mav.addObject("pageTitle", "搜索关键字'" + q + "'结果页面_java开源博客系统");
mav.addObject("mainPage", "foreground/blog/result.jsp");
// lucene索引实例里面查找关键字q的信息
List<Blog> blogList = blogIndex.searchBlog(q);
// blogList长度,page*pageSize,取小的,赋给toIndex
Integer toIndex = blogList.size() >= Integer.parseInt(page) * pageSize ? Integer.parseInt(page) * pageSize
: blogList.size();
// 截取(page-1)*pageSize到toIndex的blogList
mav.addObject("blogList", blogList.subList((Integer.parseInt(page) - 1) * pageSize, toIndex));
mav.addObject("pageCode", this.genUpAndDownPageCode(Integer.parseInt(page), blogList.size(), q, pageSize,
request.getServletContext().getContextPath()));
mav.addObject("q", q);
mav.addObject("resultTotal", blogList.size());
mav.setViewName("mainTemp");
return mav;
}
至此,Lucene就介绍完了,博主觉得掌握这些基本就差不多够了。以后项目中用到更深的东西的时候我们再研究。