ElasticSearch ES 全局映射动态模板文档映射 IK分词器标准查询 DSL

最新推荐文章于 2024-07-29 10:40:23 发布

snailisBigbull

最新推荐文章于 2024-07-29 10:40:23 发布

阅读量1.3k

点赞数 2

本文链接：https://blog.csdn.net/snailisBigbull/article/details/100747263

版权

本文是Elasticsearch（ES）的入门教程，详细介绍了ES的用途、安装及使用方法。重点讲解了ES的全局映射、动态模板和文档映射，以及如何使用DSL进行查询。内容涵盖分词器、文档管理、RESTful API和Kibana管理工具，旨在帮助读者理解ES的核心特性和操作方式。

摘要由CSDN通过智能技术生成

认识ElasticSearch

1.为什么要使用ElasticSearch

虽然全文搜索领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。
但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene的配置及使用非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。
实际项目中，我们建立一个网站或应用程序，并要添加搜索功能，令我们受打击的是：搜索工作是很难的。我们希望我们的搜索解决方案要快，我们希望有一个零配置和一个完全免费的搜索模式，我们希望能够简单地使用JSON/XML通过HTTP的索引数据，我们希望我们的搜索服务器始终可用，我们希望能够从一台开始并在需要扩容时方便地扩展到数百，我们要实时搜索，我们要简单的多租户，我们希望建立一个云的解决方案。

2.ElasticSearch（简称ES）

ES即为了解决原生Lucene使用的不足，优化Lucene的调用方式，并实现了高可用的分布式集群的搜索方案，其第一个版本于2010年2月出现在GitHub上并迅速成为最受欢迎的项目之一。
首先，ES的索引库管理支持依然是基于Apache Lucene™的开源搜索引擎。
ES也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的 RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。
不过，ES的核心不在于Lucene，其特点更多的体现为：
分布式的实时文件存储，每个字段都被索引并可被搜索
分布式的实时分析搜索引擎
可以扩展到上百台服务器，处理PB级结构化或非结构化数据
高度集成化的服务，你的应用可以通过简单的 RESTful API、各种语言的客户端甚至命令行与之
交互。
上手Elasticsearch非常容易。它提供了许多合理的缺省值，并对初学者隐藏了复杂的搜索引擎理论。它拥有开瓶即饮的效果（安装即可使用），只需很少的学习既可在生产环境中使用。

3.ES的使用者及类似框架

典型使用案例
①Github(美国)使用Elasticsearch搜索20TB的数据，包括13亿的文件和1300亿行的代码.
②Foursquare实时搜索5千万地点信息？Foursquare每天都用Elasticsearch做这样的事.
③德国SoundCloud使用Elasticsearch来为1.8亿用户提供即时精准的音乐搜索服务.
④Mozilla公司以火狐著名，它目前使用 WarOnOrange 这个项目来进行单元或功能测试，测试的结果以 json的方式索引到elasticsearch中，开发人员可以非常方便的查找 bug.
⑤Sony公司使用elasticsearch 作为信息搜索引擎.
类似框架
① Solr（重量级对手）
Apache Lucene项目的开源企业搜索平台。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成，以及富文本（如Word、PDF）的处理。Solr是高度可扩展的，并提供了分布式搜索和索引复制。Solr是最流行的企业级搜索引擎，Solr4 还增加了NoSQL支持。
Solr和ES比较：
Solr 利用 Zookeeper 进行分布式管理，支持更多格式的数据（HTML/PDF/CSV），官方提供的功能更多在传统的搜索应用中表现好于 ES，但实时搜索效率低。
ES自身带有分布式协调管理功能，但仅支持json文件格式，本身更注重于核心功能，高级功能多有第三方插件提供，在处理实时搜索应用时效率明显高于 ES。
② Katta
基于 Lucene 的，支持分布式，可扩展，具有容错功能，准实时的搜索方案。
优点：开箱即用，可以与 Hadoop 配合实现分布式。具备扩展和容错机制。
缺点：只是搜索方案，建索引部分还是需要自己实现。在搜索功能上，只实现了最基本的需求。成功案例较少，项目的成熟度稍微差一些。
③ HadoopContrib
Map/Reduce 模式的，分布式建索引方案，可以跟 Katta 配合使用。
优点：分布式建索引，具备可扩展性。
缺点：只是建索引方案，不包括搜索实现。工作在批处理模式，对实时搜索的支持不佳。

4.小结

ElasticSearch简化了全文检索lucene的使用，同时增加了分布式的特性，使得构建大规模分布式全文检索变得非常容易。

ES安装及使用说明

1.包含的内容

ES的安装比较简单，只需要官方下载ES的运行包，然后启动ES服务即可。
ES的使用主要是通过能够发起HTTP请求的终端来接入，比如Poster插件、CURL、kibana5等。

2.安装ES

ES服务只依赖于JDK，推荐使用JDK1.7+。
① 下载ES安装包
官方下载地址：https://www.elastic.co/downloads/elasticsearch
本课程以在window环境下，ES 5.2.2版本为例，下载对应的ZIP文件

在这里插入图片描述 ② 运行ES
bin/elasticsearch.bat

在这里插入图片描述
③ 验证
访问：http://localhost:9200/

在这里插入图片描述

看到上图信息，恭喜你，你的ES集群已经启动并且正常运行.

3.ES交互方式

① 基于RESTful API
ES和所有客户端的交互都是使用JSON格式的数据.
其他所有程序语言都可以使用RESTful API，通过9200端口的与ES进行通信，在开发测试阶段，你可以使用你喜欢的WEB客户端， curl命令以及火狐的POSTER插件方式和ES通信。
Curl命令方式：
默认windows下不支持curl命令，在资料中有curl的工具及简单使用说明。
在这里插入图片描述

火狐的POSTER插件界面：
类似于Firebug，在火狐的“扩展”中搜索“POSTER”，并安装改扩展工具。
在这里插入图片描述

使用POSTER模拟请求的效果
在这里插入图片描述
② Java API
ES为Java用户提供了两种内置客户端：

节点客户端(node client)：
节点客户端以无数据节点(none data node)身份加入集群，换言之，它自己不存储任何数据，但是它知道数据在集群中的具体位置，并且能够直接转发请求到对应的节点上。
传输客户端(Transport client)：
这个更轻量的传输客户端能够发送请求到远程集群。它自己不加入集群，只是简单转发请求给集群中的节点。
两个Java客户端都通过9300端口与集群交互，使用ES传输协议(ES Transport Protocol)。集群中的节点
之间也通过9300端口进行通信。如果此端口未开放，你的节点将不能组成集群。

注意

Java客户端所在的ES版本必须与集群中其他节点一致，否则，它们可能互相无法识别。

4.扩展：Restful认识

Restful是一种面向资源的架构风格，可以简单理解为：使用URL定位资源，用HTTP动词（GET,POST,DELETE,PUT）描述操作。

使用Restful的好处：

1、透明性，暴露资源存在。
2、充分利用 HTTP 协议本身语义。
3、无状态，这点非常重要。在调用一个接口（访问、操作资源）的时候，可以不用考虑上下文，不用考虑当前状态，极大的降低了复杂度。
4、HTTP 本身提供了丰富的内容协商手段，无论是缓存，还是资源修改的乐观并发控制，都可以以业务无关的中间件来实现。
Restful的典型特征：
① Server提供的RESTful API中，URL中只使用名词来指定资源。
“资源”是REST架构或者说整个网络处理的核心。比如：
GET http://api.itsource.cn/emp/323: 获取323号员工的基本资料;
GET http://api.itsource.cn/emps: 获取源码时代所有员工资料列表;
②== REST 是面向资源的，这个概念非常重要，而资源是通过 URI 进行暴露
URI 的设计只要负责把资源通过合理方式暴露出来就可以了。对资源的操作与它无关，所以REST 通过 URI 暴露资源时，会强调不要在 URI 中出现动词==。
比如：左边是错误的设计，而右边是正确的
GET /rest/api/getDogs -> GET /rest/api/dogs 获取所有小狗狗
GET /rest/api/addDogs -> POST /rest/api/dogs 添加一个小狗狗
POST /rest/api/editDogs/12 -> PUT /rest/api/dogs/12 修改一个小狗狗
POST /rest/api/deleteDogs/12 -> DELETE /rest/api/dogs/12 删除一个小狗狗
左边的这种设计，很明显不符合REST风格，URI 只负责准确无误的暴露资源，而 getDogs/addDogs…已经包含了对资源的操作，这是不对的。相反右边却满足了，它的操作是使用标准的HTTP动词来体现。
③ 用HTTP协议里的动词来实现资源的添加，修改，删除等操作。
即通过HTTP动词来实现资源的状态扭转：
GET 用来获取资源，
POST 用来新建资源（也可以用于更新资源），
PUT 用来更新资源，
DELETE 用来删除资源。
比如：
GET http://api.itsource.cn/emp/323
POST http://api.itsource.cn/emp/232: 修改一个员工
PUT http://api.itsource.cn/emp: 添加员工资料
DELETE http://api.itsource.cn/emp/323: 删除323号员工

5.辅助管理工具Kibana5

① Kibana5.2.2下载地址：https://www.elastic.co/downloads/kibana
② 解压并编辑config/kibana.yml，设置elasticsearch.url的值为已启动的ES
③ 启动Kibana5 : bin\kibana.bat

④ 默认访问地址：http://localhost:5601

green，绿色。这代表所有的主分片和副本分片都已分配。你的集群是 100% 可用的。
yellow，黄色。所有的主分片已经分片了，但至少还有一个副本是缺失的。不会有数据丢失，所以搜索结果依然是完整的。不过，你的高可用性在某种程度上被弱化。如果更多的分片消失，你就会丢数据了。所以可把 yellow 想象成一个需要及时调查的警告。
red，红色。至少一个主分片以及它的全部副本都在缺失中。这意味着你在缺少数据：搜索只能返回部分数据，而分配到这个分片上的写入请求会返回一个异常。如果你只有一台主机的话，其实索引的健康状况也是 yellow，因为一台主机，集群没有其他的主机可以防止副本，所以说，这就是一个不健康的状态，因此集群也是十分有必要的
在这里插入图片描述
Discover：可视化查询分析器
Visualize：统计分析图表
Dashboard：自定义主面板（添加图表）
Timelion：Timelion是一个kibana时间序列展示组件（暂时不用）
Dev Tools ：Console（同CURL/POSTER，操作ES代码工具，代码提示，很方便）
Management：管理索引库(index)、已保存的搜索和可视化结果(save objects)、设置 kibana 服务器属性。

6.小结

本节的重点是对Resultful的认识以及服务管理工具Kibana5的基本使用。

4.ES数据管理

4.1.什么是ES中的文档

ES是面向文档(document oriented)的，这意味着它可以存储整个对象或文档(document)。然而它不仅仅是存储，还会索引(index)每个文档的内容使之可以被搜索。在ES中，你可以对文档（而非成行成列的数据）进行索引、搜索、排序、过滤。
ES使用Javascript对象符号(JavaScript Object Notation)，也就是JSON，作为文档序列化格式。JSON现在已经被大多语言所支持，而且已经成为NoSQL领域的标准格式。
对文档自身的描述元数据(metadata)
ES存储的一个员工文档的格式示例：

{
   
"email": "nxh@itsource.cn",
"name": "倪先华",
"info": {
   
     "addr": "四川省成都市",
     "age": 30,
     "interests": [ "美食", "美女" ]
},
"join_date": "2016-06-01"
}

尽管原始的 employee对象很复杂，但它的结构和对象的含义已经被完整的体现在JSON中了，在ES中将对象转化为JSON并做索引要比在表结构中做相同的事情简单的多。
一个文档不只有数据。它还包含元数据(metadata)—关于文档的信息。三个必须的元数据节点是：
在这里插入图片描述

元数据

在这里插入图片描述

_index：索引库，类似于关系型数据库里的“数据库”—它是我们存储和索引关联数据的地方。
_type：在应用中，我们使用对象表示一些“事物”，例如一个用户、一篇博客、一个评论，或者一封邮件。可以是大写或小写，不能包含下划线或逗号。我们将使用 employee 做为类型名。
_id:与 _index 和 _type 组合时，就可以在ELasticsearch中唯一标识一个文档。当创建一个文档，你可以自定义 _id ，也可以让Elasticsearch帮你自动生成。
另外还包括：_uid文档唯一标识(_type#_id)
_source：文档原始数据
_all：所有字段的连接字符串

2.文档的增删改

我们以员工对象为例，我们首先要做的是存储员工数据，每个文档代表一个员工。在ES中存储数据的行为就叫做索引(indexing)，文档归属于一种类型(type),而这些类型存在于索引(index)中，我们可以简单的对比传统数据库和ES的对应关系：
关系数据库（MYSQL） -> 数据库DB-> 表TABLE-> 行ROW-> 列Column
Elasticsearch -> 索引库Indexs -> 类型Types -> 文档Documents -> 字段Fields
ES集群可以包含多个索引(indices)（数据库），每一个索引库中可以包含多个类型(types)（表），每一个类型包含多个文档(documents)（行），然后每个文档包含多个字段(Fields)（列）。
创建索引文档
①使用自己的ID创建：

PUT {
   index}/{
   type}/{
   id}
{
   
  "field": "value",
  ...
}
②ES内置ID创建：
POST {
   index}/{
   type}/
{
   
  "field": "value",
  ...
}
①②ES响应内容：
{
   
"_index": "itsource",
"_type": "employee",
"_id": xxxxxx,
"_version": 1, //文档版本号
"created": true //是否新增
}

③ 获取指定ID的文档
GET itsource/employee/123?pretty
③返回的内容：
{
   
"_index" : "itsource",
"_type" : "employee",
"_id" : "123",
"_version" : 1,
"found" : true,
"_source" : {
   
   "email": "nxh@itsource.cn",
   "fullName": "倪先华",
   ...
   "joine_date": "2016-06-01"
}
}

返回文档的部分字段：
GET默认返回整个文档，通过GET /itsource/employee/123?_source=fullName,email
只返回文档内容，不要元数据：
GET itsource/employee/123/_source
只检查文档是否存在(查询头信息)：
curl -i -X HEAD http://localhost:9200/itsource/employee/123
④ 修改文档
更新整个文档
同PUT {index}/{type}/{id}
在响应中，我们可以看到Elasticsearch把 _version 增加了。

{
   
...
"_version" : 2,
"created": false
}

created 标识为 false 因为同索引、同类型下已经存在同ID的文档。
在内部，Elasticsearch已经标记旧文档为删除并添加了一个完整的新文档。旧版本文档不会立即消失，但你也不能去访问它。Elasticsearch会在你继续索引更多数据时清理被删除的文档。
局部更新文档
接受一个局部文档参数 doc，它会合并到现有文档中，对象合并在一起，存在的标量字段被覆盖，新字段被添加。

POST itsource/employee/123/_update
{
   
“doc”:{
   
"email" : "nixianhua@itsource.cn", 
"salary": 1000

}

最低0.47元/天解锁文章

snailisBigbull

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

ElasticSearch ES 全局映射 动态模板 文档映射 IK分词器 标准查询 DSL

认识ElasticSearch

1.为什么要使用ElasticSearch

2.ElasticSearch（简称ES）

3.ES的使用者及类似框架

4.小结

ES安装及使用说明

1.包含的内容

2.安装ES

看到上图信息，恭喜你，你的ES集群已经启动并且正常运行.

3.ES交互方式

注意

4.扩展：Restful认识

使用Restful的好处：

5.辅助管理工具Kibana5

6.小结

4.ES数据管理

4.1.什么是ES中的文档

元数据

2.文档的增删改

ElasticSearch ES 全局映射动态模板文档映射 IK分词器标准查询 DSL