Elasticsearch - 基础入门篇

最新推荐文章于 2025-04-29 15:58:24 发布

程序员爱中国

最新推荐文章于 2025-04-29 15:58:24 发布

阅读量1.1k

点赞数 18

分类专栏： # elasticsearch 文章标签： elasticsearch 大数据搜索引擎

本文链接：https://blog.csdn.net/pang_ping/article/details/143273120

版权

在这里插入图片描述

基础入门

Elasticsearch 是一个开源的搜索引擎，建立在一个全文搜索引擎库 Apache Lucene™ 基础之上。

Elasticsearch 也是使用 Java 编写的，它的内部使用 Lucene 做索引与搜索，但是它的目的是使全文检索变得简单，通过隐藏 Lucene 的复杂性，取而代之的提供一套简单一致的 RESTful API。

本文以下Elasticsearch，皆简称为‘es’

安装并运行

安装es之前，需要先安装一个比较新版本的Java，可以从官方去下载：https://www.java.com/，之后可以从es的官网：https://www.elastic.co/downloads/elasticsearch去下载新版本的es。

解压安装好后，找到安装目录下，输入启动es

cd elasticsearch-<version>
./bin/elasticsearch

如果想把es作为一个守护进程在后台运行，可以在后面添加参数 -d

如果是在windows上面运行es，应该运行的是bin\elasticsearch.bat

测试es是否启动成功，可以打开另一个终端，执行以下操作

curl 'http://localhost:9200/?pretty'

如果是在windows运行es，可以访问http://curl.haxx.se/download.html 中下载cURL，cURL给你提供了一种将请求提交到es的便捷方式

成功响应会是如下返回：

{
   
  "name" : "Tom Foster",
  "cluster_name" : "elasticsearch",
  "version" : {
   
    "number" : "2.1.0",
    "build_hash" : "72cd1f1a3eee09505e036106146dc1949dc5dc87",
    "build_timestamp" : "2015-11-18T22:40:03Z",
    "build_snapshot" : false,
    "lucene_version" : "5.3.1"
  },
  "tagline" : "You Know, for Search"
}

这意味着已经启动并运行了一个es节点，可以在这个单节点去实验一些基本操作。

Java与es的交互

es不仅支持Java语言进行交互，还支持Groovy、JavaScript、Python等语言的客户端插件，可以在https://www.elastic.co/guide/en/elasticsearch/client/index.html中找到

注意：Java客户端作为节点必须和es有相同的主要版本，否则，它们之间将无法互相理解。

Java API

Java与es的交互中，在代码里可以使用es内置的两个客户端

节点客户端（Node client）
- 节点客户端作为一个非数据节点加入本地集群中。换句话说，它本身不保存任何数据，但是它知道数据在集群中的哪个节点中，并且可以吧请求转发到正确的节点，至于如何进行转发，后续实现原理会讲到。
传输客户端（Transport client）
- 轻量级的传输客户端可以将请求发送到远程集群。它本身不加入集群，但是她可以将请求转发到集群的一个节点上。

两个Java客户端都是通过9300端口并使用es原生传输协议和集群交互。集群的节点通过9300彼此通信，如果这个端口没有打开，节点将无法形成一个集群。

http方式请求es

一个es请求和任何http请求一样由若干相同的部件组成

curl -X<VERB> '<PROTOCOL>://<HOST>:<PORT>/<PATH>?<QUERY_STRING>' -d '<BODY>'

被<>标记的部件说明：

VERB：适当的HTTP方法或谓词：GET、POST、PUT、HEAD或DELETE
PROTOCOL：http或者https（如果你在es前面有一个https代理）
HOST：es集群中任意节点的主机名，本机节点用localhost代表
PORT：运行es http服务的端口号，默认9200
PATH：API的终端路径（例如_count将返回集群中文档数量），path可能包含多个组件，例如：_cluster/stats和_nodes/stats/jvm等，这些都是es内置的函数，后续会详细介绍
QUERY_STRING：任意可选的查询字符串参数（例如?pretty将格式化的输出json返回值）
BODY：一个JSON格式的请求体（如果请求需要的话）

案例说明：

计算集群中文档的数量

curl -XGET 'http://localhost:9200/_count?pretty' -d '
{
   
    "query": {
   
        "match_all": {
   }
    }
}
'

es返回的一个http状态码（例如：200 ok）和（除HEAD请求）一个json格式的返回值，前面的curl请求返回一个像下面一样的json体

{
   
    "count" : 0,
    "_shards" : {
   
        "total" : 5,
        "successful" : 5,
        "failed" : 0
    }
}

在返回结果里没有看到http头部信息是因为我们没有要求curl显示他们，可以在curl加-i参数使用，如下：

curl -i -XGET 'localhost:9200/'

以上是完整的请求方式，还可以用缩写格式来展示这些curl示例，缩写格式就是省略请求中所有相同的部分，例如主机名、端口号以及curl命令本身，如下：

完整curl命令：
curl -XGET 'localhost:9200/_count?pretty' -d '
{
   
    "query": {
   
        "match_all": {
   }
    }
}'

缩写curl命令：
GET /_count
{
   
    "query": {
   
        "match_all": {
   }
    }
}

面向文档

es是面向文档，意味着它存储整个对象或文档，es不仅存储文档，而且索引每个文档的内容，可以被检索到，如果一个结构内容非常丰富的对象，像传统关系型数据库，要将这个对象扁平化尽可能的每个字段设计对应列中，每次查询后又需要重新构造成对象，而es则不需要，因此这也是es其中强大功能之一，另外es对存储的文档内容还可支持复杂的全文检索，这也是传统数据库比较难处理的部分。

json

es使用json作为文档的序列化格式，下面这个json文档代表了一个user对象：

{
   
    "email":      "john@smith.com",
    "first_name": "John",
    "last_name":  "Smith",
    "info": {
   
        "bio":         "Eco-warrior and defender of the weak",
        "age":         25,
        "interests": [ "dolphins", "whales" ]
    },
    "join_date": "2014/05/01"
}