ElasticSearch——NWU_LK

ElasticSearch

Elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎,它的底层是开源库Apache Lucene。Lucene 可以说是当下最先进、高性能、全功能的搜索引擎库——无论是开源还是私有,但它也仅仅只是一个库。为了充分发挥其功能,你需要使用 Java 并将 Lucene 直接集成到应用程序中。 更糟糕的是,可能需要获得信息检索学位才能了解其工作原理,因为Lucene 非常复杂。除了全文搜索功能,还包括以下作用:

  1. 分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。
  2. 实时分析的分布式搜索引擎。
  3. 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
一. Elasticsearch的应用
  1. 记录和日志分析
    Logstash采集日志,ES进行复杂的数据分析(ELK技术,Elasticsearch+Logstash+Kibana)
  2. 全文检索
    比如Github用它检索上亿行代码 ,维基百科的全文搜索和高亮的实现。
  3. 文档数据库
    主要抢占 Mongo 的市场,它在读写性能上优于 Mongo ,同时也支持地理位置查询,还方便地理位置和文本混合查询
  4. 监控
    用户设定某商品的价格阈值,当低于该阈值的时候,发送通知消息给用户,比如说订阅。
二. Elasticsearch的安装和使用
  • 直接下载安装包解压即用,此处省略
  • 基于docker-compose安装,请参考——安装教程
三. Elasticsearch关键概念

Elasticsearch的文件存储,Elasticsearch是面向文档型数据库,一条数据在这里就是一个文档,用JSON作为文档序列化的格式。

关系数据库和es的对比

关系数据库Elasticsearch
数据库索引(index)
类型(types)
文档(documents)
属性字段(field)

一个 Elasticsearch 集群可以包含多个索引(数据库),其中包含了很多类型(表)。es7开始一个索引只能包含一个type(默认类型为_doc),es8将取消type。类型中包含了很多的文档(行),然后每个文档中又包含了很多的字段(列)。Elasticsearch的交互,可以使用Java API,也可以直接使用HTTP的Restful API方式。Elasticsearch 将一个索引划分为多个切片,这些切片可以在集群的不同服务器间迁移。Elasticsearch最关键的就是提供强大的检索能力。Elasticsearch索引的精髓:“一切设计都是为了提高搜索的性能”。为了提高搜索的性能,难免会牺牲某些其他方面,比如插入/更新。往Elasticsearch里插入一条记录,其实就是直接PUT一个json的对象,这个对象有多个fields,那么在插入这些数据到Elasticsearch的同时,Elasticsearch还默默的为这些字段建立索引–倒排索引,因为Elasticsearch最核心功能是搜索。

四. 倒排索引(反向索引)

倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。比如在查找某个关键词的时候,会先在单词词典中查找到该关键字所在的倒排文件,然后在倒排文件中查找该单词出现在哪些文档中。

  • 单词词典
    搜索引擎的通常索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
  1. 哈希加链表
    在这里插入图片描述
    比如在解析一个新文档的时候,对于某个在文档中出现的单词T,首先利用哈希函数获得其哈希值,之后根据哈希值,就找到了对应的冲突链表。如果冲突链表里已经存在这个单词,说明单词在之前解析的文档里已经出现过。如果在冲突链表里没有发现这个单词,说明该单词是首次碰到,则将其加入冲突链表里。通过这种方式,当文档集合内所有文档解析完毕时,相应的词典结构也就建立起来了。
  2. 树形结构
    用B树或B+树可以实现,此处略。
  • 倒排列表
    倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录称为一个倒排项(Posting)。根据倒排列表,即可获知哪些文档包含某个单词。
    比如ES里已经存了5个文档
    在这里插入图片描述
    以下是根据五个文档建立的倒排文件
    在这里插入图片描述
    比如拿谷歌关键词来说,其在文档1出现了1次,文档2出现了1次,文档3出现了2次,文档4出现了1次,文档5出现了1次。如果将出现的次数作为权值的话,那么首先会搜索出来文档3。
    建立倒排文件的过程也很简单,比如新添加一个文档6的内容是“谷歌创始人是拉斯”,会将其分词分为谷歌、创始人、拉斯。那么会分别在倒排文件的谷歌行、创始人行、拉斯行各添加一项纪录{6:1}
五. ik分词器

ik分词器的安装

  1. 下载压缩包,必须和es的版本一致
    下载地址
  2. 将压缩包解压到plugins目录(数据卷映射时已创建)的ik目录(需要新创建)下
  3. 重新启动es即可

自定义词典

打开ik目录下的config目录,创建自定义字典,自定义词典的文件为文件名.dic,然后将自己要定义的词写入自定义的词典中即可。然后打开IKAnalyzer.cfg.xml文件,配置刚刚编写的个人字典的位置。

词典的使用

ik分词器提供了两个分词算法:ik_smart(最少切分)和ik_max_word(最细粒度划分)

  • ik_max_word:分词结果为人民代表大会、人民代表、人民、代表大会、代表、大会
GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "人民代表大会"
}
  • ik_smart:分词结果只有人民代表大会
GET _analyze
{
  "analyzer": "ik_smart",
  "text": "人民代表大会"
}
六. Elasticsearch基本命令
  • 创建索引。
    索引名为test1,并且约定了该索引的结构,包括了三个字段,并约定了字段的类型
PUT /test1
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text"
      },
      "age": {
        "type": "long"
      },
      "birth": {
        "type": "date"
      }
    }
  }
}
  • 查看索引信息:GET /test1
  • 查看所有的索引:GET _cat/indices?v
  • 插入数据
    此处的类型写了默认类型_doc
PUT /test1/_doc/2
{
  "name":"cb",
  "age":21,
  "birth":"1996-03-03"
}
  • 查看数据:GET /test1/_doc/2
  • 修改数据
POST /test1/_doc/2/_update
{
  "doc":{
    "name":"ls"
  }
}
  • 删除数据:DELETE /test1/_doc/2
  • 删除索引:DELETE /test1
  • 条件搜索:GET /test1/_doc/_search?q=name:"zhang"
七. 花样查询
  • match单条件查询
GET /test1/_doc/_search
{
  "query":{
    "match":{
      "name":"mazi"
    }
  },
  "_source":["name","age"],
  "sort":[
    {
      "age":{
        "order":"desc"
      },
      "birth":{
        "order":"asc" 
      }
    }
  ],
  "from":0,
  "size":1
}

参数介绍

参数说明
query查询的方式,这里的match只能单字段查询
_source规定要查询的字段
sort定义查询结果排序的方式
from从结果的第几条开始显示
size显示的条数

查询结果中有一项是hits,通过该项,可以看出查找出来的信息。比如查询出的总条数、查询出的最大分值score,查询出的具体信息。

  • bool多条件查询
GET /test1/_doc/_search
{
  "query":{
    "bool":{
      "must":[
        {
          "match":{
            "name":"mazi"
          }
        },
        {
          "match":{
            "age":23
          }
        }
      ],
      "filter":{
        "range":{
          "age":{
          	"lt":40,
            "gt":10
          }
        }
      }
    }
  }
}

此处的must表示且,两个条件都符合才会被查出来,除了must之外,还有should表示或者,must_not表示非。filter是查询过滤器,此处用到了范围查询,只有年龄大于10岁并且小于40岁的记录才会被查出来

  • term精确查询
    term既可以实现但条件也可以实现多条件。term是代表完全匹配,也就是精确查询,搜索前不会再对搜索词进行分词。而match查询会先对搜索词进行分词,分词完毕后再逐个对分词结果进行匹配,因此相比于term的精确搜索,match是分词匹配搜索

  • 高亮查询

GET /test1/_search
{
  "query":{
    "match": {
      "name": "mazi"
    }
  },
  "highlight": {
    "pre_tags": "<p style='color:red'>",
    "post_tags": "</p>",
    "fields": {
      "name": {}
    }
  }
}

查询出来符合查询条件的内容会被<p style='color:red'></p>包裹

八. SpringBoot操作ElasticSearch

(1)搭建环境

  1. 创建SpringBoot项目
  2. 引入maven依赖
<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>
  1. 配置RestHighLevelClient,用来操作es
@Configuration
public class EsConfig {
    @Bean
    public RestHighLevelClient restHighLevelClient(){
        RestHighLevelClient client=new RestHighLevelClient(
                RestClient.builder(
                        new HttpHost("192.168.189.135",9200,"http")));
        return client;
    }
}
  1. 测试类注入RestHighLevelClient
@Autowired
private RestHighLevelClient restHighLevelClient;

(2)对索引的操作

关键就是做什么就创建什么样的请求。

  1. 创建索引
@Test //创建索引
 void test1() throws IOException {
     CreateIndexRequest request=new CreateIndexRequest("test6");
     CreateIndexResponse response=restHighLevelClient.indices().create(request, RequestOptions.DEFAULT);
     System.out.println(response);
 }
  1. 判断索引是否存在
 @Test //判断索引是否存在
 void test2() throws IOException {
     GetIndexRequest request=new GetIndexRequest("test6");
     boolean flag=restHighLevelClient.indices().exists(request, RequestOptions.DEFAULT);
     System.out.println(flag);
 }
  1. 删除索引
 @Test //删除索引
 void test3() throws IOException {
     DeleteIndexRequest request=new DeleteIndexRequest("test6");
     AcknowledgedResponse delete = restHighLevelClient.indices().delete(request, RequestOptions.DEFAULT);
     System.out.println(delete.isAcknowledged());
 }

(3)对文档的操作

  1. 添加文档
@Test //添加文档
void test4() throws IOException {
    //创建要被存储的对象
    User user=new User("tom",20,"111@qq.com");
    //创建请求
    IndexRequest request=new IndexRequest("test6");
    //设置文档编号
    request.id("2");
    //将对象用FastJson转化为json字符串
    request.source(JSON.toJSONString(user),XContentType.JSON);
    //执行请求
    IndexResponse response = restHighLevelClient.index(request, RequestOptions.DEFAULT);
    System.out.println(response.status());
}
  1. 查看文档是否存在
void test5() throws IOException {
    GetRequest request=new GetRequest("test6","2");
    boolean exists = restHighLevelClient.exists(request, RequestOptions.DEFAULT);
    System.out.println(exists);
}
  1. 查看某条记录
void test6() throws IOException {
    GetRequest request=new GetRequest("test6","2");
    GetResponse response = restHighLevelClient.get(request, RequestOptions.DEFAULT);
    System.out.println(response.getSourceAsString());
}
  1. 更新文档
@Test //更新文档
void test7() throws IOException {
    UpdateRequest request=new UpdateRequest("test6","2");
    User user=new User("tony",21,"222@qq.com");
    request.doc(JSON.toJSONString(user),XContentType.JSON);
    UpdateResponse response = restHighLevelClient.update(request, RequestOptions.DEFAULT);
    System.out.println(response.status());
}
  1. 删除文档

(4)查询操作

  1. 条件查询
@Test //条件查询
void test9() throws IOException {
    SearchRequest request=new SearchRequest("test6");
    //构建查询条件
    SearchSourceBuilder sourceBuilder=new SearchSourceBuilder();
    //定义查询类型
    QueryBuilder queryBuilder= QueryBuilders.termQuery("name","user1");
    sourceBuilder.query(queryBuilder)
            .timeout(new TimeValue(60,TimeUnit.SECONDS));
    request.source(sourceBuilder);
    //执行查询请求
    SearchResponse search = restHighLevelClient.search(request, RequestOptions.DEFAULT);
    SearchHits hits = search.getHits();
    for (SearchHit hit : hits) {
        System.out.println(hit.getSourceAsMap());
    }
}

(5)批处理操作

  1. 批量添加文档
@Test
void test10() throws IOException {
    BulkRequest bulkRequest=new BulkRequest();
    bulkRequest.timeout("10s");
    for (int i=1;i<=10;i++){
        bulkRequest.add(new IndexRequest("test6")
                .id(String.valueOf(i))
                .source(JSON.toJSONString(new User("user"+i,i+10,"email"+i)),XContentType.JSON));
    }
    BulkResponse responses = restHighLevelClient.bulk(bulkRequest, RequestOptions.DEFAULT);
    System.out.println(responses.status());
}

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Elasticsearch 简介 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。elasticSearch 的使用场景 1、在海量数据前提下,对数据进行检索。比如:京东,淘宝等电商项目课程目标: 1. 了解企业级搜索引擎2. 安装elasticsearch 课程目录: 01 课程介绍02 elasticsearch 简介03 elasticsearch 使用场景04 安装elasticsearch 之前先安装jdk05 安装elasticsearch06 测试elasticsearch是否安装成功 07 安装kibana08 elasticsearch 基本认识 以及添加索引和删除索引09 elasticsearch 添加查询数据10 elasticsearch 修改删除数据11 elasticsearch 有条件的查询12 分词子属性fuzzy查询13 elasticsearch 过滤使用14 elasticsearch 排序与分页15 elasticsearch 如何查询指定的字段16 elasticsearch 高亮显示17 elasticsearch 聚合18 elasticsearch mapping 概念19 elasticsearch 的中文词库20 elasticsearch 中文词库安装测试21 elasticsearch 中文词库的使用案例22 elasticsearch 自定义词库配置23 安装nginx 配置中文词库24 测试elasticsearch 自定义中文词库25 搭建项目父工程26 搭建项目bean-interface-common27 搭建search 的service web 项目28 测试项目是否能与elasticsearch联通29 创建数据库并搭建首页30 数据上传功能的实现类完成31 数据上传控制器完成32 dubbo 介绍以及安装zookeeper33 将数据从mysql 上传到elasticsearch 中34 elasticsearch查询功能分析35 编写业务需求的dsl 语句36 编写输入参数返回结果集的实体类37 实现类编写38 编写实现类中dsl 语句39 返回集结果转换40 结果测试41 测试通过输入查询条件并将数据显示到页面
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值