1.Lucene简介
Lucene是一个开源的全文检索引擎工具包,它提供了完整的索引引擎、查询引擎和部分文本分析引擎。Lucene为软件开发人员提供了一套简单易用的检索引擎开发工具包,以便在系统中实现全文检索功能,或者以Lucene为基础建立一套完整的全文检索引擎。
全文搜索引擎的工作原理:扫描问答库中的每一条记录并分词建立索引,索引记录了词在每一条问答记录中出现的次数和位置,当收到用户的问题时,也会对问题进行分词,然后从索引中找出包含这些词的所有回答记录,再分别计算这些问答记录与用户问题的相似度,找出相似度最高的一条回答记录返回给用户。
Lucene的优点:索引文件格式独立于应用平台、高效的索引引擎、强大的查询引擎、易扩展。
2.Lucene索引和检索原理
Lucene能够对任何数据做索引和检索,像txt、word、pdf、数据库等格式的数据源,我们都可以通过其他工具或编程方式将这些格式的数据读取出来,转化为文本形式的数据,这样就能使用Lucene对这些文本数据建立索引以及做检索。
3.Lucene索引和检索数据库
1.创建JDBC获取Connection工具类
package com.tgb.org;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.SQLException;
/**
* JDBC获取Connection工具类
* @author quwenzhe
*
*/
public class JdbcUtil {
private static Connection conn = null;
private static final String URL = "jdbc:mysql://localhost:3306/luce