文章目录
Elasticsearch概述
ELastic Stack(ELK Stack):包括Elasticsearch、Kibana、Beats和Logstash
能够安全可靠地获取任何源、任何格式的数据,然后实时地对数据进行搜索、分析和可视化
Elasticsearch(ES)是一个开源的高扩展的分布式全文搜索引擎,是整个Elastic Stack技术栈的核心。它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到百台服务器,处理PB级别数据
全文搜索引擎
Google、百度类的网站搜索,,都是根据网页中的关键字生成索引,在搜索的时候输入关键字,会将该关键字即索引匹配到的所有网页返回;还有常见的项目中应用日志的搜索等。这些非结构化的数据文本,关系型数据库搜索不能很好的支持
- 搜索的数据对象是大量的非结构化的文本数据
- 文件记录量达到数十万、数百万个甚至更多
- 支持大量基于交互式文本的查询
- 需求非常灵活的全文搜索查询
- 对高度相关的搜索结果有特殊需求,但没有可用的关系数据库可以满足
- 对不同记录类型、非文本数据操作或安全事务处理的需求相对较少的情况。为解决结构化数据搜索和非结构化数据搜索性能问题,我们就需要专业、健壮、强大的全文搜索引擎
这里提到的全文搜索引擎指目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于字典中的检索字表查字的过程
Elasticsearch And Solr
Lucene是Apache软件基金会Jakarta项目组的一个子项目,提供了一个简单却强大的应用程序式接口,能够做到全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具,就其本身而言。Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。但Lucene是一个提供全文搜索功能类库的核心工具包,真正使用它需要一个完整的服务框架搭建起来进行应用
目前市面上流行的搜索引擎软件有两款:Elasticsearch和Solr,都基于Lucene搭建,可以独立部署启动的搜索引擎服务软件。由于内核相同,两者除了服务器安装、部署、管理、集群以外,对于数据的操作、修改、添加、保存、查询等都十分类似
Elasticesarch应用案例
- GitHub: 2013 年初,抛弃了 Solr,采取 Elasticsearch 来做 PB 级的搜索。“GitHub 使用 Elasticsearch 搜索 20TB 的数据,包括 13 亿文件和 1300 亿行代码”
- 维基百科:启动以 Elasticsearch 为基础的核心搜索架构
- SoundCloud:SoundCloud 使用 Elasticsearch 为 1.8 亿用户提供即时而精准的音乐搜索 服务
- 百度:目前广泛使用 Elasticsearch 作为文本数据分析,采集百度所有服务器上的各类指 标数据及用户自定义数据,通过对各种数据进行多维分析展示,辅助定位分析实例异常 或业务层面异常。目前覆盖百度内部 20 多个业务线(包括云分析、网盟、预测、文库、 直达号、钱包、风控等),单集群最大 100 台机器,200 个 ES 节点,每天导入 30TB+ 数据
- 新浪:使用 Elasticsearch 分析处理 32 亿条实时日志
- 阿里:使用 Elasticsearch 构建日志采集和分析体系
数据格式
ES是面向文档型数据库,一条数据在这里就是一个文档。ES存储文档数据和关系型数据库MySQL存储数据的概念进行一个类比
用JSON作为文档序列化的格式,比如一条用户信息
{
"name" : "John",
"sex" : "Male",
"age" : 25,
"birthDate": "1990/05/01",
"about" : "I love to go rock climbing",
"interests": [ "sports", "music" ]
}
HTTP操作
以下操作均在Postman中进行
索引操作
1)创建索引
对比关系型数据库,创建索引等同于创建数据库
向ES服务器发 PUT 请求:http://127.0.0.1:9200/shopping
{
"acknowledged"【响应结果】: true, # true 操作成功
"shards_acknowledged"【分片结果】: true, # 分片操作成功
"index"【索引名称】: "shopping"
}
# 注意:创建索引库的分片数默认 1 片,在 7.0.0 之前的 Elasticsearch 版本中,默认 5 片
2)查看所有索引
向ES服务器发 GET 请求:http://127.0.0.1:9200/_cat/indices?v
- _cat:表示查看
- indices:表示索引
整体含义是查看当前ES服务器中所有索引,就好像MySQL中的show tables的感觉
表头 | 含义 |
---|---|
health | 当前服务器监控状态:green(集群完整)、yellow(单点正常、集群不完整)、red(单点不正常) |
status | 索引打开、关闭状态 |
index | 索引名 |
uuid | 索引统一编号 |
pri | 主分片数量 |
rep | 副本数量 |
docs.count | 可用文档数量 |
docs.deleted | 文档删除状态(逻辑删除) |
store.size | 主分片和副分片整体占空间大小 |
pri.store.size | 主分片占空间大小 |
3)查看单个索引
向 ES 服务器发 GET 请求:http://127.0.0.1:9200/shopping
{
"shopping"【索引名】: {
"aliases"【别名】: {},
"mappings"【映射】: {},
"settings"【设置】: {
"index"【设置 - 索引】: {
"creation_date"【设置 - 索引 - 创建时间】: "1614265373911",
"number_of_shards"【设置 - 索引 - 主分片数量】: "1",
"number_of_replicas"【设置 - 索引 - 副分片数量】: "1",
"uuid"【设置 - 索引 - 唯一标识】: "eI5wemRERTumxGCc1bAk2A",
"version"【设置 - 索引 - 版本】: {
"created": "7080099"
},
"provided_name"【设置 - 索引 - 名称】: "shopping"
}
}
}
}
4)删除索引
向ES服务器发 DELETE 请求:http://127.0.0.1:9200/shopping
重新访问索引时,服务器将返回响应:索引不存在
文档操作
1)创建文档
索引创建好后,我们便可创建文档,往其添加数据。这里的文档类比关系型数据库中的表数据,添加的数据格式为JSON
向ES服务器发 POST 请求:http://127.0.0.1:9200/shopping/_doc
Body->raw->JSON
{
"_index"[索引]: "shopping",
"_type"[类型]: "_doc",
"_id"[唯一标识]: "K9hIdYEBFmRNTuqimDSF",
"_version"[版本]: 1,
"result"[结果]: "created",
"_shards": {
"total"[分片-总数]: 2,
"successful"[分片-成功]: 1,
"failed"[分片-失败]: 0
},
"_seq_no": 0,
"_primary_term": 1
}
上面的数据创建后,由于没有指定数据唯一性标识(ID),默认情况下,ES服务器会随机生成一个
若想自定义唯一性标识,需要在创建时指定:http://127.0.0.1:9200/shopping/_doc/1
2)查看文档
查看文档时,需要指明文档的唯一性标识,类似于MySQL中数据的主键查询
向ES服务器发 GET 请求:http://127.0.0.1:9200/shopping/_doc/1
{
"_index"[索引]: "shopping",
"_type"[文档类型]: "_doc",
"_id": "1",
"_version": 1,
"_seq_no": 1,
"_primary_term": 1,
"found"[查询结果]: true,
"_source": {
"title": "小米手机",
"category": "小米",
"images": "http://www.gulixueyuan.com/xm.jpg",
"price": 3999.00
}
}
3)修改文档
和新增文档一样,输入相同的URL地址请求,若请求体发生变化,会将原有的数据内容覆盖
向ES服务器发 POST 请求:http://127.0.0.1:9200/shopping/_doc/1
Body->raw->JSON填入
{
"title":"华为手机",
"category":"华为",
"images":"http://www.gulixueyuan.com/hw.jpg",
"price":4999.00
}
修改成功后的反馈
{
"_index": "shopping",
"_type": "_doc",
"_id": "1",
"_version"[版本]: 2,
"result"[结果]: "updated",
"_shards": {
"total": 2,
"successful": 1,
"failed": 0
},
"_seq_no": 2,
"_primary_term": 1
}
4)修改字段
修改数据时,可以只修改某一条数据的局部信息
向ES服务器发 POST 请求:http://127.0.0.1:9200/shopping/_update/1
例如:请求体内容:
{
"doc": {
"price":3000.00
}
}
5)删除文档
删除一个文档不会立即从磁盘上移除,它只是被标记成已删除(逻辑删除)
在ES服务器发 DELETE 请求:
{
"_index": "shopping",
"_type": "_doc",
"_id": "1",
"_version"[版本]: 4,#对数据的操作,都会更新版本
"result"[结果]: "deleted",#deleted表示数据被标记为删除
"_shards": {
"total": 2,
"successful": 1,
"failed": 0
},
"_seq_no": 4,
"_primary_term": 1
}
6)条件删除文档
一般删除数据都是根据文档的唯一性标识进行删除,实际操作时,也可以根据条件对多条数据进行删除
向ES服务器发 POST 请求:http://127.0.0.1:9200/shopping/_delete_by_query
请求体内容:
{
"query":{
"match":{
"price":4000.00
}
}
}
映射操作
有了索引库,等于有了数据库中的database。接下来就需要建索引库(index)中的映射,类似于数据库中的表结构。创建数据库表需要设置字段名称、类型、长度、约束等。索引库也需要知道这个类型下有哪些字段,每个字段有哪些约束信息,这就称为映射(mapping)
1)创建映射
向ES服务器发 PUT 请求:http://127.0.0.1:9200/shopping/_mapping
请求体内容:
{
"properties": {
"name":{
"type": "text",
"index": true
},
"sex":{
"type": "text",
"index": false
},
"age":{
"type": "long",
"index": false
}
}
}
映射数据说明
- 字段名:任意填写,下面指定许多属性,例如title、subtitle、images、price
- String类型,又分两种
- text:可分词
- keyword:不可分词,数据会作为完整字段进行匹配
- Numerical,数值类型,分两类
- 基本数据类型:long、integer、short、byte、double、float、half_float
- 浮点数的高精度类型:scaled_float
- Date:日期类型
- Array:数组类型
- Object:对象
- String类型,又分两种
- index:是否为索引,默认为ture
- true:字段会被索引,可用来进行搜索
- flase:字段不会被索引,不能用来搜索
- store:释放将数据进行独立存储,默认为false
- 原始的文本会存储在_source里面,默认情况下其他提取出来的字段都不是独立存储的,是从_source里面提取出来的。当然也可以独立的存储某个字段,只要设置“store”:true即可,获取独立存储的字段要比从_source中解析快得多,但是也会占用更多的空间,要根据实际业务需要来设置
- analyzer:分词器,这里ik_max_word,即使用Ik分词器
2)查看映射
向ES服务器发 GET 请求:http://127.0.0.1:9200/shopping/_mapping
3)索引映射关联
向ES服务器发 PUT 请求:http://127.0.0.1:9200/shopping1
请求体内容
{
"settings": {},
"mappings": {
"properties": {
"name":{
"type": "text",
"index": true
},
"sex":{
"type": "text",
"index": false
},
"age":{
"type": "long",
"index": false
}
}
}
}
高级查询
ES提供了基于JSON提供完整的查询DSL来定义查询
首先创建索引:http://127.0.0.1:9200/student
其次创建如下文档
#POST /student/_doc/1001
{
"name":"zhangsan",
"nickname":"zhangsan",
"sex":"男",
"age":30
}
#POST /student/_doc/1002
{
"name":"lisi",
"nickname":"lisi",
"sex":"男",
"age":20
}
#POST /student/_doc/1003
{
"name":"wangwu",
"nickname":"wangwu",
"sex":"女",
"age":40
}
# POST /student/_doc/1004
{
"name":"zhangsan1",
"nickname":"zhangsan1",
"sex":"女",
"age":50
}
# POST /student/_doc/1005
{
"name":"zhangsan2",
"nickname":"zhangsan2",
"sex":"女",
"age":30
}
1)查询所有文档
向ES服务器发 GET 请求:http://127.0.0.1:9200/student/_search
{
"query": {
"match_all": {}
}
}
# "query":这里的 query 代表一个查询对象,里面可以有不同的查询属性
# "match_all":查询类型,例如:match_all(代表查询所有),match,term,range 等等
# {查询条件}:查询条件会根据类型的不同,写法也有差异
2)匹配查询
match匹配查询,会把查询条件进行分词,然后进行查询,多个词条之间是or的关系
向ES服务器发 GET 请求:http://127.0.0.1:9200/student/_search
{
"query": {
"match": {
"name":"zhangsan"
}
}
}
3)字段匹配查询
multi_match与match类似,不同的是它可以在多个字段中查询
向ES服务器发 GET 请求:http://127.0.0.1:9200/student/_search
{
"query": {
"multi_match": {
"query": "zhangsan",
"fields": ["name","nickname"]
}
}
}
4)关键字精确查询
term查询,精确的关键词匹配查询,不对查询条件进行分词
向ES服务器发 GET 请求:http://127.0.0.1:9200/student/_search
{
"query": {
"term": {
"name": {
"value": "zhangsan"
}
}
}
}
5)多关键字精确查询
terms和term查询一样,允许指定多值进行匹配
若这个字段包含了指定值中的任何一个值,那么这个文档满足条件,类似于mysql的in
向ES服务器发 GET 请求:http://127.0.0.1:9200/student/_search
{
"query": {
"terms": {
"name": ["zhangsan","lisi"]
}
}
}
6)指定查询字段
默认情况下,ES在搜索的结果中,会把文档保存在_source的所有字段都返回,若我们只想获取其中部分字段,可添加_source过滤
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"_source": ["name","nickname"],
"query": {
"terms": {
"nickname": ["zhangsan"]
}
}
}
7)过滤字段
也可通过:
- includes:指定想要显示的字段
- exclude:指定不想显示的字段
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"_source": {
"includes": ["name","nickname"]
},
"query": {
"terms": {
"nickname": ["zhangsan"]
}
}
}
8)组合查询
bool把各种其他查询通过must、must_not、should的方式进行组合
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"name": "zhangsan"
}
}
],
"must_not": [
{
"match": {
"age": "40"
}
}
],
"should": [
{
"match": {
"sex": "男"
}
}
]
}
}
}
9)范围查询
range查询找出哪些落在指定区间内的数字或时间,range查询运行以下字符
操作符 | 说明 |
---|---|
gt | > |
gte | >= |
lt | < |
lte | <= |
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"query": {
"range": {
"age": {
"gte": 30,
"lte": 35
}
}
}
}
10)模糊查询
返回包含与搜索字词相似的字词文档
编辑距离是将一个术语转换为另一个术语所需的一个字符更改的次数。这些更改可以包括:
- 更改字符:box -> fox
- 删除字符:black -> lack
- 插入字符:sic -> sick
- 转置两个相邻字符 act -cat
为了找到的术语,fuzzy查询会在指定的编辑距离内创建一组搜索词的所有可能的变体或扩展。然后查询返回每个扩展的完全匹配。通过fuzziness修改编辑距离,一般使用默认值 AUTO,根据术语的长度生成编辑距离
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"query": {
"fuzzy": {
"title": {
"value": "zhangsan"
}
}
}
}
11)单字段排序
sort可以让我们按照不同的字段进行排序,并且通过order指定排序的方式,desc、asc
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"query": {
"match": {
"name":"zhangsan"
}
},
"sort": [{
"age": {
"order":"desc"
}
}]
}
12)多字段排序
假定我们想要结合使用 age和_source进行查询,并且匹配的结果首先按照年龄排序,然后按照相关性得分排序
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"age": {
"order": "desc"
}
},
{
"_score":{
"order": "desc"
}
}
]
}
13)高亮查询
在进行关键字搜索时,搜索出的内容中的关键字会显示不同的颜色,称之为高亮
ES可对查询内容中的关键字部分进行标签和样式设置
在使用match查询的同时,加上一个highlight属性
- pre_tags:前置标签
- post_tags:后置标签
- fields:需要高亮的字段
- title:这里声明title字段需要高亮,后面可为这个字段设置特有配置,也可为空
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"query": {
"match": {
"name": "zhangsan"
}
},
"highlight": {
"pre_tags": "<font color='red'>",
"post_tags": "</font>",
"fields": {
"name": {}
}
}
}
14)分页查询
- from:当前页的起始索引,默认从0开始,from = (pageNum - 1)*size
- size:每页显示多少条
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"age": {
"order": "desc"
}
}
],
"from": 0,
"size": 2
}
15)聚合查询
聚合允许使用者对ES文档进行统计分析,类似于关系型数据库中的group by
有:max、min、avg、sum、count、State(一次性取前面5个指标)
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"aggs":{
"max_age":{
"max":{"field":"age"}
}
},
"size":0
}
16)桶聚合查询
相当于sql中的group by,terms聚合,分组统计
向ES服务器发 GET 请求 :http://127.0.0.1:9200/student/_search
{
"aggs":{
"age_groupby":{
"terms":{"field":"age"}
}
},
"size":0
}