Lucene（六）索引库的维护

最新推荐文章于 2024-07-19 18:00:00 发布

夜未眠shm

最新推荐文章于 2024-07-19 18:00:00 发布

阅读量278

点赞数 1

分类专栏： 24-全文检索

本文链接：https://blog.csdn.net/java_shm/article/details/106109458

版权

24-全文检索专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1. 索引库的添加

1.1 Field域的属性

是否分析：是否对域的内容进行分词处理。前提是我们要对域的内容进行查询。
是否索引：将Field分析后的词或整个Field值进行索引，只有索引方可搜索到。比如：商品名称、商品简介分析后进行索引，订单号、身份证号不用分析但也要索引，这些将来都要作为查询条件。
是否存储：将Field值存储在文档中，存储在文档中的Field才可以从Document中获取比如：商品名称、订单号，凡是将来要从Document中获取的Field都要存储。

是否存储的标准：是否要将内容展示给用户

Field类	数据类型	Analyzed 是否分析	Indexed 是否索引	Stored 是否存储	说明
StringField(FieldName, FieldValue,Store.YES))	字符串	N	Y	Y或N	这个Field用来构建一个字符串Field，但是不会进行分析，会将整个串存储在索引中，比如(订单号,姓名等) 是否存储在文档中用Store.YES或Store.NO决定
LongPoint(String name, long... point)	Long型	Y	Y	N	可以使用LongPoint、IntPoint等类型存储数值类型的数据。让数值类型可以进行索引。但是不能存储数据，如果想存储数据还需要使用StoredField。
StoredField(FieldName, FieldValue)	重载方法，支持多种类型	N	N	Y	这个Field用来构建不同类型Field 不分析，不索引，但要Field存储在文档中
TextField(FieldName, FieldValue, Store.NO) 或 TextField(FieldName, reader)	字符串或流	Y	Y	Y或N	如果是一个Reader, lucene猜测内容比较多,会采用Unstored的策略.

1.2 添加文档

    /**
     * 创建一个indexwriter对象
     * @return
     * @throws Exception
     */
    private IndexWriter getIndexWriter() throws Exception {
        //索引库存放路径
        Directory directory = FSDirectory.open(Paths.get("D:\\test\\lucene\\programme"));
        IndexWriterConfig config = new IndexWriterConfig(new IKAnalyzer());
        //创建一个indexwriter对象
        IndexWriter indexWriter = new IndexWriter(directory, config);
        return indexWriter;
    }

    //添加索引
    @Test
    public void addDocument() throws Exception {
        //创建一个indexwriter对象
        IndexWriter indexWriter =getIndexWriter();
        //创建一个Document对象
        Document document = new Document();
        //向document对象中添加域。
        //不同的document可以有不同的域，同一个document可以有相同的域。
        document.add(new TextField("filename", "新添加的文档", Field.Store.YES));
        document.add(new TextField("content", "新添加的文档的内容", Field.Store.NO));
        //LongPoint创建索引
        document.add(new LongPoint("size", 1000l));
        //StoreField存储数据
        document.add(new StoredField("size", 1000l));
        //不需要创建索引的就使用StoreField存储
        document.add(new StoredField("path", "D:\\test\\lucene\\1.txt"));
        //添加文档到索引库
        indexWriter.addDocument(document);
        //关闭indexwriter
        indexWriter.close();

    }

1.3 查看结果

2.索引库删除

2.1 删除全部

//删除全部索引
    @Test
    public void deleteAllIndex() throws Exception {
        IndexWriter indexWriter = getIndexWriter();
        //删除全部索引
        indexWriter.deleteAll();
        //关闭indexwriter
        indexWriter.close();
    }

说明：将索引目录的索引信息全部删除，直接彻底删除，无法恢复。

此方法慎用！！

2.2 指定查询条件删除

    //根据查询条件删除索引
    @Test
    public void deleteIndexByQuery() throws Exception {
        IndexWriter indexWriter = getIndexWriter();
        //创建一个查询条件
        Query query = new TermQuery(new Term("filename", "apache"));
        //根据查询条件删除
        indexWriter.deleteDocuments(query);
        //关闭indexwriter
        indexWriter.close();
    }

初始：共15个文档

包含：apache的有两个文档

执行结果：还剩13个文档

2.3 索引库的修改

原理就是先删除后添加。

    //修改索引库
    @Test
    public void updateIndex() throws Exception {
        IndexWriter indexWriter = getIndexWriter();
        //创建一个Document对象
        Document document = new Document();
        //向document对象中添加域。
        //不同的document可以有不同的域，同一个document可以有相同的域。
        document.add(new TextField("filename", "要更新的文档", Field.Store.YES));
        document.add(new TextField("content", " Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包," +
                "它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。",
                Field.Store.YES));
        indexWriter.updateDocument(new Term("filename", "apache"), document);
        //关闭indexWriter
        indexWriter.close();
    }

执行结果：

共14个文档，初始15个文档，删除了包含apache的两个文档，添加了一个filename为“要跟新的文档”的文档

3.Lucene索引库查询

对要搜索的信息创建Query查询对象，Lucene会根据Query查询对象生成最终的查询语法，类似关系数据库Sql语法一样Lucene也有自己的查询语法，比如：“filename:apache”表示查询Field的name为“apache”的文档信息。

可通过两种方法创建查询对象：

使用Lucene提供Query子类
使用QueryParse解析查询表达式

3.1 TermQuery

TermQuery，通过项查询，TermQuery不使用分析器所以建议匹配不分词的Field域查询，比如订单号、分类ID号等。

指定要查询的域和要查询的关键词。

    private void  printResult(Query query,IndexSearcher indexSearcher) throws Exception {
        //执行查询
        TopDocs topDocs = indexSearcher.search(query, 10);
        //共查询到的document个数
        System.out.println("查询结果总数量：" + topDocs.totalHits);
        //遍历查询结果
        for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
            Document document = indexSearcher.doc(scoreDoc.doc);
            System.out.println(document.get("filename"));
            //System.out.println(document.get("content"));
            System.out.println(document.get("path"));
            System.out.println(document.get("size"));
            System.out.println("-----------------------------------");
        }
        //关闭indexreader
        indexSearcher.getIndexReader().close();
    }
    //使用Termquery查询
    @Test
    public void testTermQuery() throws Exception {
        Directory directory = FSDirectory.open(Paths.get("D:\\test\\lucene\\programme"));
        IndexReader indexReader = DirectoryReader.open(directory);
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);

        //创建查询对象
        Query query = new TermQuery(new Term("content", "lucene"));
        printResult(query, indexSearcher);
    }

3.2 数值范围查询

@Test
    public void testRangeQuery() throws Exception {
        Directory directory = FSDirectory.open(Paths.get("D:\\test\\lucene\\programme"));
        IndexReader indexReader = DirectoryReader.open(directory);
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);
        Query query = LongPoint.newRangeQuery("size", 0l, 10000l);
        printResult(query, indexSearcher);
    }

执行结果：

ps：为什么查不到数据？？回忆我们创建的索引库的代码：

要进行数值范围查询，那么我们的Field域需要是Long数据类型的，而不是String数据类型。所以修改索引库创建的代码：

删除原有索引库，重建，再执行代码testRangeQuery，结果为：

3.3 使用queryparser查询

通过QueryParser也可以创建Query，QueryParser提供一个Parse方法，此方法可以直接根据查询语法来查询。Query对象执行的查询语法可通过System.out.println(query);查询。需要使用到分析器。建议创建索引时使用的分析器和查询索引时使用的分析器要一致。需要加入queryParser依赖的jar包。

        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-queryparser</artifactId>
            <version>7.4.0</version>
        </dependency>

    @Test
    public void testQueryParser() throws Exception {
        Directory directory = FSDirectory.open(Paths.get("D:\\test\\lucene\\programme"));
        IndexReader indexReader = DirectoryReader.open(directory);
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);
        //创建queryparser对象
        //第一个参数默认搜索的域
        //第二个参数就是分析器对象
        QueryParser queryParser = new QueryParser("content", new IKAnalyzer());
        Query query = queryParser.parse("Lucene是java开发的");
        //执行查询
        printResult(query, indexSearcher);
    }

夜未眠shm

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene（六）索引库的维护

1. 索引库的添加1.1 Field域的属性是否分析：是否对域的内容进行分词处理。前提是我们要对域的内容进行查询。是否索引：将Field分析后的词或整个Field值进行索引，只有索引方可搜索到。比如：商品名称、商品简介分析后进行索引，订单号、身份证号不用分析但也要索引，这些将来都要作为查询条件。是否存储：将Field值存储在文档中，存储在文档中的Field才可以从Document中获取比如：商品名称、订单号，凡是将来要从Document中获取的Field都要存储。是否存储的标准：是否要将内
复制链接

扫一扫

专栏目录