Spring-Boot使用IK分词器

someliber

已于 2024-07-17 21:44:53 修改

阅读量260

点赞数 7

文章标签： java spring boot

于 2024-07-13 19:45:43 首次发布

本文链接：https://blog.csdn.net/qq_71387716/article/details/140404886

版权

1.Maven依赖

1.1Spring-Boot版本

<parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>3.3.1</version>
        <relativePath/>
    </parent>

1.2Lucene版本

 <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-core</artifactId>
            <version>8.11.1</version>
 </dependency>
 <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-analyzers-common</artifactId>
            <version>8.11.1</version>
 </dependency>

1.3 ik-analyzer

<dependency>
            <groupId>com.github.magese</groupId>
            <artifactId>ik-analyzer</artifactId>
            <version>8.5.0</version>
        </dependency>
</dependencies>

2. 启动器

import org.apache.lucene.analysis.Analyzer;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.context.annotation.Bean;
import org.wltea.analyzer.lucene.IKAnalyzer;


@SpringBootApplication
public class ikApplication {

    public static void main(String[] args) {
        SpringApplication.run(ikApplication.class, args);
    }

    @Bean
    public Analyzer ikAnalyzer() {
        return new IKAnalyzer();
    }
}

3.项目结构

项目结构配置文件说明https://github.com/magese/ik-analyzer-solr/tree/master?tab=readme-ov-file

4.测试类


import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.junit.jupiter.api.Test;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;
import org.wltea.analyzer.lucene.IKAnalyzer;

import java.io.File;
import java.io.IOException;
import java.util.List;

@SpringBootTest
class IKApplicationTests {

    @Autowired
    JobInfoService jobInfoService;

    //注入ik分词器
    @Autowired
    Analyzer ikAnalyzer;

    //创建索引
    @Test
    void contextLoads() throws IOException {
        // 1.指定索引文件的存储位置
        Directory directory = FSDirectory.open(new File("E:/class/index").toPath());
        // 2.配置（IK）分词器
        Analyzer analyzer = new IKAnalyzer();
        
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        // 3.创建IndexWrite对象，作用是创建索引
        org.apache.lucene.index.IndexWriter indexWriter = new org.apache.lucene.index.IndexWriter(directory, config);
        // 删除已经存在的索引库
        indexWriter.deleteAll();
        // 4.获得索引源/原始数据（需要自己写查询数据库）
        List<JobInfo> jobInfos = jobInfoService.selectAllJobInfo();
        // 5.遍历，创建Document对象
        for (JobInfo jobInfo : jobInfos) {
            // 每次循环都创建一个新的Document对象
            Document document = new Document();
            // 创建Field对象并添加到Document
            document.add(new StringField("id", jobInfo.getId().toString(), Field.Store.YES));
            document.add(new TextField("companyName", jobInfo.getCompanyName(), Field.Store.YES));
            document.add(new org.apache.lucene.document.IntPoint("salaryMin", jobInfo.getSalaryMin()));
            document.add(new org.apache.lucene.document.StoredField("salaryMinStored", jobInfo.getSalaryMin()));
 jobInfo.getSalaryMax()));
            document.add(new StringField("url", jobInfo.getUrl(), Field.Store.YES));
            indexWriter.addDocument(document);
        }
        // 关闭资源
        indexWriter.close();
    }
    //测试查询结果
    @Test
    public void query() throws IOException {
        //1.指定索引文件的存储位置
        Directory directory=FSDirectory.open(new File("E:/class/index").toPath());

        //2.IndexReader对象
        IndexReader indexReader= DirectoryReader.open(directory);
        //3.创建查询对象
        IndexSearcher indexSearcher=new IndexSearcher(indexReader);
        //4.使用term
        Query query=new TermQuery(new Term("companyName","有限公司"));
        TopDocs topDocs = indexSearcher.search(query, 100);
        //5.获取符合查询的文档数
        org.apache.lucene.search.TotalHits totalHits = topDocs.totalHits;
        System.out.println(totalHits);
        org.apache.lucene.search.ScoreDoc[] scoreDocs = topDocs.scoreDocs;
        for (org.apache.lucene.search.ScoreDoc scoreDoc:scoreDocs){
            int id = scoreDoc.doc;
            Document doc = indexSearcher.doc(id);
            System.out.println("id:"+doc.get("id"));
            System.out.println("companyName"+doc.get("companyName"));
            System.out.println("========================================");
        }
        indexReader.close();
    }

}