ElasticSearch学习笔记

最新推荐文章于 2024-08-17 20:53:37 发布

FaizOrange

最新推荐文章于 2024-08-17 20:53:37 发布

阅读量177

点赞数

文章标签： elasticsearch 搜索引擎学习

本文链接：https://blog.csdn.net/FaizOrange/article/details/125279616

版权

一、概述

1、什么是Elaticsearch

Elaticsearch，简称为es，es是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据;本身扩展性很好，可以扩展到上百台服务器，处理PB级别(大数据时代）的数据。es也使用java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful> API来隐藏Lucene的复杂性，从而让全文搜索变得简单。据国际权威的数据库产品评测机构DB> Engines的统计，在2016年1月，ElasticSearch已超过Solr等，成为排名第一的搜索引擎类应用。

安装es,head插件后，启动访问http://localhost:9100。如图：

在这里插入图片描述

我们可以这样理解上图：
这是一个es的可视化界面，其中：

索引可以看做 “数据库”
类型可以看做 “表”
文档可以看做 “库中的数据（表中的行）”

2、IK分词器

IK分词器是es的一个分词插件，在下载之后我们需要解压到ElasticSearch的plugins目录。

所谓分词：即把一段中文或者别的划分成一个个的关键字，我们在搜索时候会把自己的信息进行分词，会把数据库中或者索引库中的数据进行分词，然后进行一一个匹配操作，默认的中文分词是将每个字看成一个词（不使用用IK分词器的情况下），比如“我爱狂神”会被分为”我”，”爱”，”狂”，”神”> ，这显然是不符合要求的，所以我们需要安装中文分词器ik来解决这个问题。

IK分词器支持两种分词算法：ik_smart、ik_max_word

ik_smart：最少切分，比如“年轻人不讲武德”，会被分成“年轻人”、“不讲”、“武德”。
ik_max_word：最小粒度切分（穷尽词库的可能），比如“年轻人不讲武德”，会被分成“年轻人”、“年轻”、“人”、“不讲”、“讲武”、“武德”等。

当默认的词库不够用时，我们可以添加自定义的词添加到扩展字典中

elasticsearch目录/plugins/ik/config/IKAnalyzer.cfg.xml，打开 IKAnalyzer.cfg.xml 文件，扩展字典。

在这里插入图片描述

3、Rest风格说明

一种软件架构风格,而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁，更有层次，更易于实现缓存等机制。

基本Rest命令说明：

在这里插入图片描述

二、SpringBoot集成

1、创建一个Springboot项目，导入依赖，注意es的版本改成7.6.1（与自己安装的版本相符）

 <properties>
        <java.version>1.8</java.version>
        <elasticsearch.version>7.6.1</elasticsearch.version>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
        </dependency>
        <dependency>

2、创建一个配置类：

@Configuration
public class ElasticsearchConfig {

    @Bean
    public RestHighLevelClient restHighLevelClient(){
        new RestHighLevelClient(RestClient.builder(
                new HttpHost("localhost",9200,"http")
        ));
        return restHighLevelClient();
    }
}

3、创建一个实体类（类似与数据库与java中的实体映射），以User为例

@Data
@NoArgsConstructor
@AllArgsConstructor
public class User implements Serializable {

    public static final long serialVersionUID = 1L;

    private String name;

    private int age;
}

4、测试（所有测试均在 EsApiApplicationTests中编写）

（1）测试创建索引

    @Autowired
    private RestHighLevelClient client;

    /**
     * 1、创建索引
     */
    @Test
    void createIndex() throws IOException {
        //创建一个CreateIndexRequest请求
        CreateIndexRequest request = new CreateIndexRequest("orange");
        //执行请求
        CreateIndexResponse response = client.indices().create(request, RequestOptions.DEFAULT);
        //查看返回对象
        System.out.println(response);
        client.close();
    }

（2）测试创建文档

    /**
     * 创建文档
     */
    @Test
    void createDocument() throws IOException {
        //创建用户数据
        User user = new User("李志成", 23);
        //创建请求，操作orange数据库
        IndexRequest request = new IndexRequest("orange");
        //制定规则，id,超时时间
        request.id("1");
        request.timeout("1s");
        //把数据放进请求中
        request.source(JSON.toJSONString(user), XContentType.JSON);
        //执行请求
        IndexResponse response = client.index(request, RequestOptions.DEFAULT);
        System.out.println(response);
        client.close();
    }

（3）测试文档的获取

// 测试获得文档信息
@Test
public void testGetDocument() throws IOException {
    GetRequest request = new GetRequest("orange","1");
    GetResponse response = restHighLevelClient.get(request, RequestOptions.DEFAULT);
    System.out.println(response.getSourceAsString());// 打印文档内容
    System.out.println(request);// 返回的全部内容和命令是一样的
    restHighLevelClient.close();

（4）测试文档的更新

@Test
public void testUpdateDocument() throws IOException {
    UpdateRequest request = new UpdateRequest("orange", "1");
    User user = new User("lisi",11);
    request.doc(JSON.toJSONString(user),XContentType.JSON);
    UpdateResponse response = restHighLevelClient.update(request, RequestOptions.DEFAULT);
    System.out.println(response.status()); // OK
    restHighLevelClient.close();
}

（5）测试文档查询

  /**
     * 测试文档查询
     * SearchRequest 搜索请求
     * SearchSourceBuilder 条件构造
     * termQueryBuilder 精确查询
     */
    @Test
    void searchTest() throws IOException {
        //创建查询请求对象
        SearchRequest searchRequest = new SearchRequest();
        //构造搜索条件
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        //查询条件，使用 QueryBuilders工具类实现
        TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", "李志成");
        //查询条件投入到searchSourceBuilder中
        searchSourceBuilder.query(termQueryBuilder);
        //添加查询到请求中
        searchRequest.source(searchSourceBuilder);
        SearchResponse response = client.search(searchRequest, RequestOptions.DEFAULT);
        //查看返回结果
        SearchHits hits = response.getHits();
        System.out.println(JSON.toJSONString(hits));
        System.out.println("=======================");
        for(SearchHit documentFields:hits.getHits()){
            System.out.println(documentFields.getSourceAsMap());
        }
    }

（6）测试批量添加

    /**
     * 批量添加数据
     */
    @Test
    void BulkTest() throws IOException {
        BulkRequest request = new BulkRequest();
        ArrayList<User> users = new ArrayList<>();
        users.add(new User("lisi",18));
        users.add(new User("zhangsan",19));
        users.add(new User("wangwu",20));
        for(int i=0;i<users.size();i++){
            request.add(
                    new IndexRequest("orange").id(""+(i+1))//没有设置id会随机生成
                    .timeout("10s")
                    .source(JSON.toJSONString(users.get(i)),XContentType.JSON)
            );
        }
        BulkResponse response = client.bulk(request, RequestOptions.DEFAULT);
        System.out.println(response.status());
    }

三、实战（京东）

1、创建一个springboot项目（es_jd)，导入相关依赖，其中es的版本要与自己本地的一致（7.6.1）.

<properties>
    <java.version>1.8</java.version>
    <elasticsearch.version>7.6.1</elasticsearch.version>
</properties>
<dependencies>
    <!-- jsoup解析页面 -->
    <!-- 解析网页 爬视频可 研究tiko -->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.10.2</version>
    </dependency>
    <!-- fastjson -->
    <dependency>
        <groupId>com.alibaba</groupId>
        <artifactId>fastjson</artifactId>
        <version>1.2.70</version>
    </dependency>
    <!-- ElasticSearch -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
    </dependency>
    <!-- thymeleaf -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-thymeleaf</artifactId>
    </dependency>
    <!-- web -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <!-- devtools热部署 -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-devtools</artifactId>
        <scope>runtime</scope>
        <optional>true</optional>
    </dependency>
    <!--  -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-configuration-processor</artifactId>
        <optional>true</optional>
    </dependency>
    <!-- lombok 需要安装插件 -->
    <dependency>
        <groupId>org.projectlombok</groupId>
        <artifactId>lombok</artifactId>
        <optional>true</optional>
    </dependency>
    <!-- test -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-test</artifactId>
        <scope>test</scope>
    </dependency>
</dependencies>

2、导入前端素材，修改application.yml文件

server:
  port: 8080

spring:
  thymeleaf:
    cache: false

3、创建配置类

@Configuration
public class ElasticSearchConfig {

    @Bean
    public RestHighLevelClient restHighLevelClient(){
        RestHighLevelClient restHighLevelClient = new RestHighLevelClient(
                RestClient.builder(new HttpHost("localhost",9200,"http"))
        );
        return restHighLevelClient;
    }
}

4、编写HtmlParseUtil工具类，解析页面

public class HtmlParseUtil {
    public static void main(String[] args) throws IOException {
        System.out.println(parseJD("java"));
    }

    public static List<Content> parseJD(String keyword) throws IOException {
        String url = "http://search.jd.com/search?keyword=" + keyword;
        // 1.解析网页(jsoup 解析返回的对象是浏览器Document对象)
        Document document = Jsoup.parse(new URL(url), 30000);
        // 使用document可以使用在js对document的所有操作
        // 2.获取元素（通过id）
        Element j_goodsList = document.getElementById("J_goodsList");
        // 3.获取J_goodsList ul 每一个 li
        Elements lis = j_goodsList.getElementsByTag("li");
//        System.out.println(lis);
        // 4.获取li下的 img、price、name
        // list存储所有li下的内容
        List<Content> contents = new ArrayList<Content>();
        for (Element li : lis) {
            // 由于网站图片使用懒加载，将src属性替换为data-lazy-img
            String img = li.getElementsByTag("img").eq(0).attr("data-lazy-img");// 获取li下 第一张图片
            String name = li.getElementsByClass("p-name").eq(0).text();
            String price = li.getElementsByClass("p-price").eq(0).text();
            // 封装为对象
            Content content = new Content(name,img,price);
            // 添加到list中
            contents.add(content);
        }
//        System.out.println(contents);
        // 5.返回 list
        return contents;
    }
}

5、编写service，将数据放进es中

因为是爬取的数据，那么就不走Dao，以下编写都不会编写接口，开发中必须严格要求编写

@Service
public class ContentService {
    @Autowired
    private RestHighLevelClient restHighLevelClient;
    // 1、解析数据放入 es 索引中
    public Boolean parseContent(String keyword) throws IOException {
        // 获取内容
        List<Content> contents = HtmlParseUtil.parseJD(keyword);
        // 内容放入 es 中
        BulkRequest bulkRequest = new BulkRequest();
        bulkRequest.timeout("2m"); // 可更具实际业务是指
        for (int i = 0; i < contents.size(); i++) {
            bulkRequest.add(
                    new IndexRequest("jd_goods")
                            .id(""+(i+1))
                            .source(JSON.toJSONString(contents.get(i)), XContentType.JSON)
            );
        }
        BulkResponse bulk = restHighLevelClient.bulk(bulkRequest, RequestOptions.DEFAULT);
        restHighLevelClient.close();
        return !bulk.hasFailures();
    }

6、编写controller,发送请求获取数据并放进es中

@RestController
public class ContentController {

    @Autowired
    private ContentService contentService;

    @GetMapping("/parse/{keyword}")
    @ResponseBody
    public Boolean parse(@PathVariable("keyword")String keyword) throws IOException {
        return contentService.parseContent(keyword);
    }
}

至此，爬虫获取数据完成,之后编写编写查询接口（ContentService），与前端结合

  // 2、根据keyword分页查询结果
    public List<Map<String, Object>> search(String keyword, int pageNum, int pageSize) throws IOException {
        if (pageNum < 0) {
            pageNum = 0;
        }
        SearchRequest jd_goods = new SearchRequest("jd_goods");
        // 创建搜索源建造者对象
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        // 条件采用：精确查询 通过keyword查字段name
        TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", keyword);
        searchSourceBuilder.query(termQueryBuilder);
        searchSourceBuilder.timeout(new TimeValue(60, TimeUnit.SECONDS));// 60s
        // 分页
        searchSourceBuilder.from(pageNum);
        searchSourceBuilder.size(pageSize);
        // 搜索源放入搜索请求中
        jd_goods.source(searchSourceBuilder);
        // 执行查询，返回结果
        SearchResponse searchResponse = restHighLevelClient.search(jd_goods, RequestOptions.DEFAULT);
        restHighLevelClient.close();
        // 解析结果
        SearchHits hits = searchResponse.getHits();
        List<Map<String, Object>> results = new ArrayList<>();
        for (SearchHit documentFields : hits.getHits()) {
            Map<String, Object> sourceAsMap = documentFields.getSourceAsMap();
            results.add(sourceAsMap);
        }
        // 返回查询的结果
        return results;
    }

Controller方法如下：

    @GetMapping("/search/{keyword}/{pageNum}/{pageSize}")
    public List<Map<String,Object>> parse(@PathVariable("keyword") String keyword,
                                          @PathVariable("pageNum") int pageNum,
                                          @PathVariable("pageSize") int pageSize) throws IOException {
        return contentService.search(keyword,pageNum,pageSize);
    }

实现关键字高亮查询
1、编写高亮查询接口

 //3、关键字高亮查询
    public List<Map<String, Object>> HighLightSearch(String keyword, int pageNum, int pageSize) throws IOException {
        if (pageNum < 0) {
            pageNum = 0;
        }
        SearchRequest jd_goods = new SearchRequest("jd_goods");
        // 创建搜索源建造者对象
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        // 条件采用：精确查询 通过keyword查字段name
        TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", keyword);
        searchSourceBuilder.query(termQueryBuilder);
        searchSourceBuilder.timeout(new TimeValue(60, TimeUnit.SECONDS));// 60s
        // 分页
        searchSourceBuilder.from(pageNum);
        searchSourceBuilder.size(pageSize);
        //高亮
        HighlightBuilder highlightBuilder = new HighlightBuilder();
        highlightBuilder.field("name");
        highlightBuilder.preTags("<span style='color:red'>");
        highlightBuilder.postTags("</span>");
        searchSourceBuilder.highlighter(highlightBuilder);
        // 搜索源放入搜索请求中
        jd_goods.source(searchSourceBuilder);
        // 执行查询，返回结果
        SearchResponse searchResponse = restHighLevelClient.search(jd_goods, RequestOptions.DEFAULT);
        restHighLevelClient.close();
        // 解析结果
        SearchHits hits = searchResponse.getHits();
        List<Map<String, Object>> results = new ArrayList<>();
        for (SearchHit documentFields : hits.getHits()) {
            // 使用新的字段值（高亮），覆盖旧的字段值
            Map<String, Object> sourceAsMap = documentFields.getSourceAsMap();
            //获取高亮字段
            Map<String, HighlightField> highlightFields = documentFields.getHighlightFields();
            HighlightField name = highlightFields.get("name");
            //替换
            if(name!=null){
                Text[] fragments = name.fragments();
                StringBuilder newName = new StringBuilder();
                for(Text text:fragments){
                    newName.append(text);
                }
                sourceAsMap.put("name",newName.toString());
            }
            results.add(sourceAsMap);
        }
        // 返回查询的结果
        return results;
    }

2、编写Controller

@GetMapping("/h_search/{keyword}/{pageNum}/{pageSize}")
    public List<Map<String,Object>> HighLightSearch(@PathVariable("keyword") String keyword,
                                          @PathVariable("pageNum") int pageNum,
                                          @PathVariable("pageSize") int pageSize) throws IOException {
        return contentService.HighLightSearch(keyword,pageNum,pageSize);
    }