ElasticSearch学习笔记

一、概述

1、什么是Elaticsearch

Elaticsearch,简称为es,es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别(大数据时代)的数据。es也使用java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful> API来隐藏Lucene的复杂性,从而让全文搜索变得简单。据国际权威的数据库产品评测机构DB> Engines的统计,在2016年1月,ElasticSearch已超过Solr等,成为排名第一的搜索引擎类应用。

安装es,head插件后,启动访问http://localhost:9100。如图:

在这里插入图片描述

我们可以这样理解上图:
这是一个es的可视化界面,其中:

  • 索引 可以看做 “数据库”
  • 类型 可以看做 “表”
  • 文档 可以看做 “库中的数据(表中的行)”

2、IK分词器

IK分词器是es的一个分词插件,在下载之后我们需要解压到ElasticSearch的plugins目录。

所谓分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一一个匹配操作,默认的中文分词是将每个字看成一个词(不使用用IK分词器的情况下),比如“我爱狂神”会被分为”我”,”爱”,”狂”,”神”> ,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。

IK分词器支持两种分词算法:ik_smart、ik_max_word

  • ik_smart:最少切分,比如“年轻人不讲武德”,会被分成“年轻人”、“不讲”、“武德”。
  • ik_max_word:最小粒度切分(穷尽词库的可能),比如“年轻人不讲武德”,会被分成“年轻人”、“年轻”、“人”、“不讲”、“讲武”、“武德”等。

当默认的词库不够用时,我们可以添加自定义的词添加到扩展字典中

elasticsearch目录/plugins/ik/config/IKAnalyzer.cfg.xml,打开 IKAnalyzer.cfg.xml 文件,扩展字典。

在这里插入图片描述
在这里插入图片描述

3、Rest风格说明

一种软件架构风格,而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

基本Rest命令说明:

在这里插入图片描述

二、SpringBoot集成

1、创建一个Springboot项目,导入依赖,注意es的版本改成7.6.1(与自己安装的版本相符)

 <properties>
        <java.version>1.8</java.version>
        <elasticsearch.version>7.6.1</elasticsearch.version>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
        </dependency>
        <dependency>

2、创建一个配置类:

@Configuration
public class ElasticsearchConfig {

    @Bean
    public RestHighLevelClient restHighLevelClient(){
        new RestHighLevelClient(RestClient.builder(
                new HttpHost("localhost",9200,"http")
        ));
        return restHighLevelClient();
    }
}

3、创建一个实体类(类似与数据库与java中的实体映射),以User为例

@Data
@NoArgsConstructor
@AllArgsConstructor
public class User implements Serializable {

    public static final long serialVersionUID = 1L;

    private String name;

    private int age;
}

4、测试(所有测试均在 EsApiApplicationTests中编写)

(1)测试创建索引

    @Autowired
    private RestHighLevelClient client;

    /**
     * 1、创建索引
     */
    @Test
    void createIndex() throws IOException {
        //创建一个CreateIndexRequest请求
        CreateIndexRequest request = new CreateIndexRequest("orange");
        //执行请求
        CreateIndexResponse response = client.indices().create(request, RequestOptions.DEFAULT);
        //查看返回对象
        System.out.println(response);
        client.close();
    }

(2)测试创建文档

    /**
     * 创建文档
     */
    @Test
    void createDocument() throws IOException {
        //创建用户数据
        User user = new User("李志成", 23);
        //创建请求,操作orange数据库
        IndexRequest request = new IndexRequest("orange");
        //制定规则,id,超时时间
        request.id("1");
        request.timeout("1s");
        //把数据放进请求中
        request.source(JSON.toJSONString(user), XContentType.JSON);
        //执行请求
        IndexResponse response = client.index(request, RequestOptions.DEFAULT);
        System.out.println(response);
        client.close();
    }

(3)测试文档的获取

// 测试获得文档信息
@Test
public void testGetDocument() throws IOException {
    GetRequest request = new GetRequest("orange","1");
    GetResponse response = restHighLevelClient.get(request, RequestOptions.DEFAULT);
    System.out.println(response.getSourceAsString());// 打印文档内容
    System.out.println(request);// 返回的全部内容和命令是一样的
    restHighLevelClient.close();

(4)测试文档的更新

@Test
public void testUpdateDocument() throws IOException {
    UpdateRequest request = new UpdateRequest("orange", "1");
    User user = new User("lisi",11);
    request.doc(JSON.toJSONString(user),XContentType.JSON);
    UpdateResponse response = restHighLevelClient.update(request, RequestOptions.DEFAULT);
    System.out.println(response.status()); // OK
    restHighLevelClient.close();
}

(5)测试文档查询

  /**
     * 测试文档查询
     * SearchRequest 搜索请求
     * SearchSourceBuilder 条件构造
     * termQueryBuilder 精确查询
     */
    @Test
    void searchTest() throws IOException {
        //创建查询请求对象
        SearchRequest searchRequest = new SearchRequest();
        //构造搜索条件
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        //查询条件,使用 QueryBuilders工具类实现
        TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", "李志成");
        //查询条件投入到searchSourceBuilder中
        searchSourceBuilder.query(termQueryBuilder);
        //添加查询到请求中
        searchRequest.source(searchSourceBuilder);
        SearchResponse response = client.search(searchRequest, RequestOptions.DEFAULT);
        //查看返回结果
        SearchHits hits = response.getHits();
        System.out.println(JSON.toJSONString(hits));
        System.out.println("=======================");
        for(SearchHit documentFields:hits.getHits()){
            System.out.println(documentFields.getSourceAsMap());
        }
    }

(6)测试批量添加

    /**
     * 批量添加数据
     */
    @Test
    void BulkTest() throws IOException {
        BulkRequest request = new BulkRequest();
        ArrayList<User> users = new ArrayList<>();
        users.add(new User("lisi",18));
        users.add(new User("zhangsan",19));
        users.add(new User("wangwu",20));
        for(int i=0;i<users.size();i++){
            request.add(
                    new IndexRequest("orange").id(""+(i+1))//没有设置id会随机生成
                    .timeout("10s")
                    .source(JSON.toJSONString(users.get(i)),XContentType.JSON)
            );
        }
        BulkResponse response = client.bulk(request, RequestOptions.DEFAULT);
        System.out.println(response.status());
    }

三、实战(京东)

1、创建一个springboot项目(es_jd),导入相关依赖,其中es的版本要与自己本地的一致(7.6.1).

<properties>
    <java.version>1.8</java.version>
    <elasticsearch.version>7.6.1</elasticsearch.version>
</properties>
<dependencies>
    <!-- jsoup解析页面 -->
    <!-- 解析网页 爬视频可 研究tiko -->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.10.2</version>
    </dependency>
    <!-- fastjson -->
    <dependency>
        <groupId>com.alibaba</groupId>
        <artifactId>fastjson</artifactId>
        <version>1.2.70</version>
    </dependency>
    <!-- ElasticSearch -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
    </dependency>
    <!-- thymeleaf -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-thymeleaf</artifactId>
    </dependency>
    <!-- web -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <!-- devtools热部署 -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-devtools</artifactId>
        <scope>runtime</scope>
        <optional>true</optional>
    </dependency>
    <!--  -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-configuration-processor</artifactId>
        <optional>true</optional>
    </dependency>
    <!-- lombok 需要安装插件 -->
    <dependency>
        <groupId>org.projectlombok</groupId>
        <artifactId>lombok</artifactId>
        <optional>true</optional>
    </dependency>
    <!-- test -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-test</artifactId>
        <scope>test</scope>
    </dependency>
</dependencies>

2、导入前端素材,修改application.yml文件

server:
  port: 8080

spring:
  thymeleaf:
    cache: false

3、创建配置类

@Configuration
public class ElasticSearchConfig {

    @Bean
    public RestHighLevelClient restHighLevelClient(){
        RestHighLevelClient restHighLevelClient = new RestHighLevelClient(
                RestClient.builder(new HttpHost("localhost",9200,"http"))
        );
        return restHighLevelClient;
    }
}

4、编写HtmlParseUtil工具类,解析页面

public class HtmlParseUtil {
    public static void main(String[] args) throws IOException {
        System.out.println(parseJD("java"));
    }

    public static List<Content> parseJD(String keyword) throws IOException {
        String url = "http://search.jd.com/search?keyword=" + keyword;
        // 1.解析网页(jsoup 解析返回的对象是浏览器Document对象)
        Document document = Jsoup.parse(new URL(url), 30000);
        // 使用document可以使用在js对document的所有操作
        // 2.获取元素(通过id)
        Element j_goodsList = document.getElementById("J_goodsList");
        // 3.获取J_goodsList ul 每一个 li
        Elements lis = j_goodsList.getElementsByTag("li");
//        System.out.println(lis);
        // 4.获取li下的 img、price、name
        // list存储所有li下的内容
        List<Content> contents = new ArrayList<Content>();
        for (Element li : lis) {
            // 由于网站图片使用懒加载,将src属性替换为data-lazy-img
            String img = li.getElementsByTag("img").eq(0).attr("data-lazy-img");// 获取li下 第一张图片
            String name = li.getElementsByClass("p-name").eq(0).text();
            String price = li.getElementsByClass("p-price").eq(0).text();
            // 封装为对象
            Content content = new Content(name,img,price);
            // 添加到list中
            contents.add(content);
        }
//        System.out.println(contents);
        // 5.返回 list
        return contents;
    }
}

5、编写service,将数据放进es中

因为是爬取的数据,那么就不走Dao,以下编写都不会编写接口,开发中必须严格要求编写

@Service
public class ContentService {
    @Autowired
    private RestHighLevelClient restHighLevelClient;
    // 1、解析数据放入 es 索引中
    public Boolean parseContent(String keyword) throws IOException {
        // 获取内容
        List<Content> contents = HtmlParseUtil.parseJD(keyword);
        // 内容放入 es 中
        BulkRequest bulkRequest = new BulkRequest();
        bulkRequest.timeout("2m"); // 可更具实际业务是指
        for (int i = 0; i < contents.size(); i++) {
            bulkRequest.add(
                    new IndexRequest("jd_goods")
                            .id(""+(i+1))
                            .source(JSON.toJSONString(contents.get(i)), XContentType.JSON)
            );
        }
        BulkResponse bulk = restHighLevelClient.bulk(bulkRequest, RequestOptions.DEFAULT);
        restHighLevelClient.close();
        return !bulk.hasFailures();
    }

6、编写controller,发送请求获取数据并放进es中

@RestController
public class ContentController {

    @Autowired
    private ContentService contentService;

    @GetMapping("/parse/{keyword}")
    @ResponseBody
    public Boolean parse(@PathVariable("keyword")String keyword) throws IOException {
        return contentService.parseContent(keyword);
    }
}

至此,爬虫获取数据完成,之后编写编写查询接口(ContentService),与前端结合

  // 2、根据keyword分页查询结果
    public List<Map<String, Object>> search(String keyword, int pageNum, int pageSize) throws IOException {
        if (pageNum < 0) {
            pageNum = 0;
        }
        SearchRequest jd_goods = new SearchRequest("jd_goods");
        // 创建搜索源建造者对象
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        // 条件采用:精确查询 通过keyword查字段name
        TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", keyword);
        searchSourceBuilder.query(termQueryBuilder);
        searchSourceBuilder.timeout(new TimeValue(60, TimeUnit.SECONDS));// 60s
        // 分页
        searchSourceBuilder.from(pageNum);
        searchSourceBuilder.size(pageSize);
        // 搜索源放入搜索请求中
        jd_goods.source(searchSourceBuilder);
        // 执行查询,返回结果
        SearchResponse searchResponse = restHighLevelClient.search(jd_goods, RequestOptions.DEFAULT);
        restHighLevelClient.close();
        // 解析结果
        SearchHits hits = searchResponse.getHits();
        List<Map<String, Object>> results = new ArrayList<>();
        for (SearchHit documentFields : hits.getHits()) {
            Map<String, Object> sourceAsMap = documentFields.getSourceAsMap();
            results.add(sourceAsMap);
        }
        // 返回查询的结果
        return results;
    }

Controller方法如下:

    @GetMapping("/search/{keyword}/{pageNum}/{pageSize}")
    public List<Map<String,Object>> parse(@PathVariable("keyword") String keyword,
                                          @PathVariable("pageNum") int pageNum,
                                          @PathVariable("pageSize") int pageSize) throws IOException {
        return contentService.search(keyword,pageNum,pageSize);
    }

实现关键字高亮查询
1、编写高亮查询接口

 //3、关键字高亮查询
    public List<Map<String, Object>> HighLightSearch(String keyword, int pageNum, int pageSize) throws IOException {
        if (pageNum < 0) {
            pageNum = 0;
        }
        SearchRequest jd_goods = new SearchRequest("jd_goods");
        // 创建搜索源建造者对象
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        // 条件采用:精确查询 通过keyword查字段name
        TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", keyword);
        searchSourceBuilder.query(termQueryBuilder);
        searchSourceBuilder.timeout(new TimeValue(60, TimeUnit.SECONDS));// 60s
        // 分页
        searchSourceBuilder.from(pageNum);
        searchSourceBuilder.size(pageSize);
        //高亮
        HighlightBuilder highlightBuilder = new HighlightBuilder();
        highlightBuilder.field("name");
        highlightBuilder.preTags("<span style='color:red'>");
        highlightBuilder.postTags("</span>");
        searchSourceBuilder.highlighter(highlightBuilder);
        // 搜索源放入搜索请求中
        jd_goods.source(searchSourceBuilder);
        // 执行查询,返回结果
        SearchResponse searchResponse = restHighLevelClient.search(jd_goods, RequestOptions.DEFAULT);
        restHighLevelClient.close();
        // 解析结果
        SearchHits hits = searchResponse.getHits();
        List<Map<String, Object>> results = new ArrayList<>();
        for (SearchHit documentFields : hits.getHits()) {
            // 使用新的字段值(高亮),覆盖旧的字段值
            Map<String, Object> sourceAsMap = documentFields.getSourceAsMap();
            //获取高亮字段
            Map<String, HighlightField> highlightFields = documentFields.getHighlightFields();
            HighlightField name = highlightFields.get("name");
            //替换
            if(name!=null){
                Text[] fragments = name.fragments();
                StringBuilder newName = new StringBuilder();
                for(Text text:fragments){
                    newName.append(text);
                }
                sourceAsMap.put("name",newName.toString());
            }
            results.add(sourceAsMap);
        }
        // 返回查询的结果
        return results;
    }

2、编写Controller

@GetMapping("/h_search/{keyword}/{pageNum}/{pageSize}")
    public List<Map<String,Object>> HighLightSearch(@PathVariable("keyword") String keyword,
                                          @PathVariable("pageNum") int pageNum,
                                          @PathVariable("pageSize") int pageSize) throws IOException {
        return contentService.HighLightSearch(keyword,pageNum,pageSize);
    }

3、测试
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值