Elasticsearch介绍

非结构化数据

格式和长度不固定的数据。

全文检索

一种非结构化数据的搜索方式。

索引

例如将字典中字的拼音提取出来做成目录。

正排索引(正向索引)

文档id建立为索引,数据库中主键会创建爱你正排索引。

倒排索引(反向索引)

将数据中的关键词建立为索引,指向文档数据。

Elasticsearch本质

是一个java语言开发的web项目

应用场景

全站搜索。

维基百科以es为基础的核心搜索架构。

新浪使用es分析处理32亿条实时日志。

对比Solr

solr利用zookeeper进行分布式管理。

es只支持json文件格式。

solr高级功能多由第三方插件提供。

es处理实时搜索效率更高。

es数据结构

文档:可以被查询的最小数据单元。类似关系型数据库中记录的概念。

类型:类似于关系型数据库中数据表的概念。

索引:类似于关系型数据库中的概念。

域:类似于关系型数据库中字段的概念。---->表

注:ES7.X之后删除了type的概念,一个索引不会代表一个库,而是代表一张表。我们课程中使用ES7.17,所以目前的ES中概念对比为:

JAVA项目实体类对象属性
ESIndexDocumentFiled
MysqlDatabaseTableRowColumn

安装es服务

准备一台全新的虚拟机(es)

配置IP地址为192.168.0.187

减少卡顿可以在shell中关闭转发连接

关闭防火墙

systemctl stop firewalld.service

禁止防火墙自启动

systemctl disable firewalld.service

配置可创建文件数大小(由于linux自带可创建的文件数量太少,故需要手动修改配置)

打开系统文件

vim /etc/sysctl.conf

添加配置

vm.max_map_count=655360

配置生效

sysctl -p

由于es不能以root用户运行,所以创建一个es用户

useradd es

安装es服务

上传es文件

解压文件

修改文件名

移动文件到/usr/local下

创建es用户权限并以es用户进行操作

启动es服务

默认端口是9200,执行命令启动成功

安装kibana(可视化窗口)

对es数据可视化进行搜索查看,交互操作。

上传kibana文件

解压文件

tar -zxvf kibana-7.17.0-linux-x86_64.tar.gz -C /usr/local/
 

修改配置文件

 注意空格

创建es访问kibana的权限并切换es用户

启动kibana服务

默认端口:5601

网页访问kibana:192.168.202.187:5601

如果报错堆栈内存不足:

修改配置文件

查看连接状态

docker安装

# 安装Docker
curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun


# 启动docker
systemctl start docker
 

拉取镜像

docker pull elasticsearch:7.17.0

启动容器

# docker容器间建立通信
docker network create elastic


# 创建es容器
docker run --restart=always -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" -e ES_JAVA_OPTS="-Xms512m -Xmx512m" --name='elasticsearch' --net elastic --cpuset-cpus="1" -m 1G -d elasticsearch:7.17.0

安装Kibana

拉取镜像

docker pull kibana:7.17.0

启动容器

docker run --name kibana --net elastic --link elasticsearch:elasticsearch -p 5601:5601 -d kibana:7.17.0

访问kibana:

http://192.168.202.187:5601

es的常用操作

索引操作

文档操作

域的属性

索引操作

创建一个空索引student

为该索引添加结构

es是RESTful风格的HTTP请求

直接创建有结构的索引(自动整理格式)

注意添加“mappings”

删除索引

delete /索引名

文档操作

没有id值是会自动生成

 删除自动生成的id后将无法进行数据查询

根据id批量查询文档

查询所有文档


#根据id批量查询文档
#1.创建一个图书类索引
#2.添加文档
#3.根据id批量查询文档

PUT /37book
{
  "mappings": {
    "properties": {
      "id": {
        "type": "integer"
      },
      "name": {
        "type": "text"
      },
      "price": {
        "type": "integer"
      }
    }
  }
}

POST /37book/_doc/1
{
  "id":1,
  "name":"《地球人不是都知道》",
  "price":25
}

POST /37book/_doc/2
{
  "id":2,
  "name":"《钟表馆事件》",
  "price":15
}

GET /37book/_mget
{
  "docs":[
    {"_id":1},
    {"_id":2}
  ]
}

#查询所有文档
GET /37book/_search
{
  "query": {
    "match_all": {}
  }
}

#修改文档名
POST /37book/_doc/2/_update
{
  "doc":{
    "name":"《月亮和六便士》"
  }
}


域的属性

创建索引查看index的作用

type

域的类型

核心类型具体类型
字符串类型text
整数类型long, integer, short, byte
浮点类型double, float
日期类型date
布尔类型boolean
数组类型array
对象类型object
不分词的字符串keyword

store

是否单独存储,如果设置为true,该域能够单独查询。

默认分词器

ES文档的数据拆分成一个个有完整含义的关键词,并将关键词与文档对应,这样就可以通过关键词查询文档。要想正确的分词,需要选择合适的分词器。

standard analyzer:Elasticsearch默认分词器,根据空格和标点符号对英文进行分词,会进行单词的大小写转换。

默认分词器是英文分词器,对中文的分词是一字一词。

IK分词器

可以实现对中文进行拆分

安装IK分词器

上传分词器

解压

unzip elasticsearch-analysis-ik-7.17.0.zip -d /usr/local/elasticsearch1/plugins/analysis-ik
 

su es
#进入ES安装文件夹:
cd /usr/local/elasticsearch1/bin/
#启动ES服务:
./elasticsearch -d
 

cd /usr/local/kibana-7.17.0-linux-x86_64/bin
./kibana
 

测试ik分词器

GET /_analyze
{
    "text":"测试语句", 
    "analyzer":"ik_smart/ik_max_word"
}
 

IK分词器词典

IK分词器根据词典进行分词,词典文件在IK分词器的config目录中。

  • main.dic:IK中内置的词典。记录了IK统计的所有中文单词。

  • IKAnalyzer.cfg.xml:用于配置自定义词库。

 

查看

关闭es和kibana服务后重启

拼音分词器

关闭es、kibana服务

上传拼音分词器

解压

unzip elasticsearch-analysis-pinyin-7.17.0.zip -d /usr/local/elasticsearch1/plugins/analysis-pinyin

重新启动es服务

su es
#进入ES安装文件夹:
cd /usr/local/elasticsearch1/bin/
#启动ES服务:(-d后台启动)
./elasticsearch -d

cd /usr/local/kibana/bin/

./kibana

测试拼音分词器

自定义分词器

真实开发中我们往往需要对一段内容既进行文字分词,又进行拼音分词,此时我们需要自定义ik+pinyin分词器。

创建自定义分词器

  • 在创建索引时自定义分词器
PUT /索引名
{
  "settings" : {
    "analysis" : {
      "analyzer" : {
        "ik_pinyin" : { //自定义分词器名
          "tokenizer":"ik_max_word", // 基本分词器
          "filter":"pinyin_filter" // 配置分词器过滤
         }
       },
      "filter" : { // 分词器过滤时配置另一个分词器,相当于同时使用两个分词器
        "pinyin_filter" : { 
          "type" : "pinyin", // 另一个分词器
          // 拼音分词器的配置
          "keep_separate_first_letter" : false, // 是否分词每个字的首字母
          "keep_full_pinyin" : true, // 是否分词全拼
          "keep_original" : true, // 是否保留原始输入
          "remove_duplicated_term" : true // 是否删除重复项
         }
       }
     }
   },
  "mappings":{
    "properties":{
      "域名1":{
        "type":域的类型,
        "store":是否单独存储,
        "index":是否创建索引,
             "analyzer":分词器
       },
      "域名2":{ 
        ...
       }
     }
   }
}
#创建索引时自定义分词器
PUT /book
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_pinyin":{
          "tokenizer":"ik_max_word",
          "filter":"pinyin_filter"
        }
      },
      "filter": {
        "pinyin_filter":{
          "type":"pinyin",
          "keep_separate_first_letter" : false, 
          "keep_full_pinyin" : true,
          "keep_original" : true,
          "remove_duplicated_term": true 
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name":{
        "type": "text",
        "store": true,
        "index": true, 
        "analyzer": "ik_pinyin"
      },
      "price":{
        "type": "integer"
        
      }
    }
  }
}

#测试自定义分词器
GET /book/_analyze
{
  "text": "地球人不是都知道", 
  "analyzer": "ik_pinyin"
}

es搜索文档

GET /索引/_search
{
    "query":{
    搜索方式:搜索参数
   }
}

准备文档数据并进行测试


#创建索引时自定义分词器
PUT /book
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_pinyin":{
          "tokenizer":"ik_max_word",
          "filter":"pinyin_filter"
        }
      },
      "filter": {
        "pinyin_filter":{
          "type":"pinyin",
          "keep_separate_first_letter" : false, 
          "keep_full_pinyin" : true,
          "keep_original" : true,
          "remove_duplicated_term": true 
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name":{
        "type": "text",
        "store": true,
        "index": true, 
        "analyzer": "ik_pinyin"
      },
      "price":{
        "type": "integer"
        
      }
    }
  }
}

#测试自定义分词器
GET /book/_analyze
{
  "text": "地球人不是都知道", 
  "analyzer": "ik_pinyin"
}


#添加6条数据
POST /book/_doc/
{
  "id":1,
  "name":"c语言",
  "info":"编程基础"
}

POST /book/_doc/
{
  "id":2,
  "name":"我从未如此眷恋人间",
  "info":"散文"
}

POST /book/_doc/
{
  "id":3,
  "name":"月亮和六便士",
  "info":"梦想"
}

POST /book/_doc/
{
  "id":4,
  "name":"钟表馆事件",
  "info":"推理"
}

POST /book/_doc/
{
  "id":5,
  "name":"十万个为什么",
  "info":"常识"
}

POST /book/_doc/
{
  "id":6,
  "name":"文化苦旅",
  "info":"文学"
}

POST /book/_doc/
{
  "id":7,
  "name":"白鸟与蝙蝠",
  "info":"推理 东野圭吾"
}

#文档搜索
#1.查询所有
GET /book/_search
{
  "query": {
    "match_all": {}
  }
}

#2.全文检索,将查询条件分词后在进行搜索
GET /book/_search
{
  "query": {
    "match": {
      "info": "识"
    }
  }
}

#范围搜索
GET /book/_search
{
  "query": {
    "range": {
      "id": {
        "gte": 1,
        "lte": 5
      }
    }
  }
}

#短语检索
GET /book/_search
{
  "query": {
    "match_phrase": {
      "info": "推理"
    }
  }
}

#自定义排序
#desc降序
#asc升序
GET /book/_search
{
  "query": {
   "match": {
     "info": "推理" 
   }
  },
  "sort": [
    {
      "id": {
        "order": "desc"
      }
    }
  ]
}

分页查询

GET /索引/_search

    "query": 搜索条件,
    "from": 起始下标,
    "size": 查询记录数
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值