目录
基础入门
Elasticsearch 是一个开源的搜索引擎,建立在一个全文搜索引擎库 Apache Lucene™ 基础之上。
Elasticsearch 也是使用 Java 编写的,它的内部使用 Lucene 做索引与搜索,但是它的目的是使全文检索变得简单, 通过隐藏 Lucene 的复杂性,取而代之的提供一套简单一致的 RESTful API。
本文以下Elasticsearch,皆简称为‘es’
安装并运行
安装es之前,需要先安装一个比较新版本的Java,可以从官方去下载:https://www.java.com/,之后可以从es的官网:https://www.elastic.co/downloads/elasticsearch去下载新版本的es。
解压安装好后,找到安装目录下,输入启动es
cd elasticsearch-<version>
./bin/elasticsearch
如果想把es作为一个守护进程在后台运行,可以在后面添加参数 -d
如果是在windows上面运行es,应该运行的是bin\elasticsearch.bat
测试es是否启动成功,可以打开另一个终端,执行以下操作
curl 'http://localhost:9200/?pretty'
如果是在windows运行es,可以访问http://curl.haxx.se/download.html 中下载cURL,cURL给你提供了一种将请求提交到es的便捷方式
成功响应会是如下返回:
{
"name" : "Tom Foster",
"cluster_name" : "elasticsearch",
"version" : {
"number" : "2.1.0",
"build_hash" : "72cd1f1a3eee09505e036106146dc1949dc5dc87",
"build_timestamp" : "2015-11-18T22:40:03Z",
"build_snapshot" : false,
"lucene_version" : "5.3.1"
},
"tagline" : "You Know, for Search"
}
这意味着已经启动并运行了一个es节点,可以在这个单节点去实验一些基本操作。
Java与es的交互
es不仅支持Java语言进行交互,还支持Groovy、JavaScript、Python等语言的客户端插件,可以在https://www.elastic.co/guide/en/elasticsearch/client/index.html中找到
注意:Java客户端作为节点必须和es有相同的主要版本,否则,它们之间将无法互相理解。
Java API
Java与es的交互中,在代码里可以使用es内置的两个客户端
- 节点客户端(Node client)
- 节点客户端作为一个非数据节点加入本地集群中。换句话说,它本身不保存任何数据,但是它知道数据在集群中的哪个节点中,并且可以吧请求转发到正确的节点,至于如何进行转发,后续实现原理会讲到。
- 传输客户端(Transport client)
- 轻量级的传输客户端可以将请求发送到远程集群。它本身不加入集群,但是她可以将请求转发到集群的一个节点上。
两个Java客户端都是通过9300端口并使用es原生传输协议和集群交互。集群的节点通过9300彼此通信,如果这个端口没有打开,节点将无法形成一个集群。
http方式请求es
一个es请求和任何http请求一样由若干相同的部件组成
curl -X<VERB> '<PROTOCOL>://<HOST>:<PORT>/<PATH>?<QUERY_STRING>' -d '<BODY>'
被<>标记的部件说明:
- VERB:适当的HTTP方法或谓词:GET、POST、PUT、HEAD或DELETE
- PROTOCOL:http或者https(如果你在es前面有一个https代理)
- HOST:es集群中任意节点的主机名,本机节点用localhost代表
- PORT:运行es http服务的端口号,默认9200
- PATH:API的终端路径(例如_count将返回集群中文档数量),path可能包含多个组件,例如:_cluster/stats和_nodes/stats/jvm等,这些都是es内置的函数,后续会详细介绍
- QUERY_STRING:任意可选的查询字符串参数(例如?pretty将格式化的输出json返回值)
- BODY:一个JSON格式的请求体(如果请求需要的话)
案例说明:
计算集群中文档的数量
curl -XGET 'http://localhost:9200/_count?pretty' -d '
{
"query": {
"match_all": {
}
}
}
'
es返回的一个http状态码(例如:200 ok)和(除HEAD
请求)一个json格式的返回值,前面的curl请求返回一个像下面一样的json体
{
"count" : 0,
"_shards" : {
"total" : 5,
"successful" : 5,
"failed" : 0
}
}
在返回结果里没有看到http头部信息是因为我们没有要求curl显示他们,可以在curl加-i参数使用,如下:
curl -i -XGET 'localhost:9200/'
以上是完整的请求方式,还可以用缩写格式来展示这些curl示例,缩写格式就是省略请求中所有相同的部分,例如主机名、端口号以及curl命令本身,如下:
完整curl命令:
curl -XGET 'localhost:9200/_count?pretty' -d '
{
"query": {
"match_all": {
}
}
}'
缩写curl命令:
GET /_count
{
"query": {
"match_all": {
}
}
}
面向文档
es是面向文档,意味着它存储整个对象或文档,es不仅存储文档,而且索引每个文档的内容,可以被检索到,如果一个结构内容非常丰富的对象,像传统关系型数据库,要将这个对象扁平化尽可能的每个字段设计对应列中,每次查询后又需要重新构造成对象,而es则不需要,因此这也是es其中强大功能之一,另外es对存储的文档内容还可支持复杂的全文检索,这也是传统数据库比较难处理的部分。
json
es使用json作为文档的序列化格式,下面这个json文档代表了一个user对象:
{
"email": "john@smith.com",
"first_name": "John",
"last_name": "Smith",
"info": {
"bio": "Eco-warrior and defender of the weak",
"age": 25,
"interests": [ "dolphins", "whales" ]
},
"join_date": "2014/05/01"
}
文档操作
在这里将会带领大家对es文档有一个简单的基本的入门练习,在练习前,我们先对这些名词有个概念
索引、类型、文档ID
一个索引类似于传统关系数据库中的一个数据库,是一个存储关系型文档的地方,一个es集群可以包含多个索引,对应每个索引可以包含多个类型,文档的唯一性是通过索引、类型、文档唯一标识三要素去确定的。
- _index(索引):文档在哪里存放
- _type(类型):文档标识的对象类别
- _id(唯一标识):文档的唯一标识
格式:
PUT