官方定义
Elasticsearch 是一个 实时的分布式搜索分析引擎, 它能让你以一个之前从未有过的速度和规模,去探索你的数据。 它被用作 全文检索、结构化搜索、分析以及这三个功能的组合。Elasticsearch 也是使用 Java 编写的,它的内部使用 Lucene 做索引与搜索,但是它的目的是使全文检索变得简单, 通过隐藏 Lucene 的复杂性,取而代之的提供一套简单一致的 RESTful API。它可以被这样准备地形容:一个分布式的实时文档存储,每个字段 可以被索引与搜索一个分布式实时分析搜索引擎能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据使用案例
Wikipedia 使用 Elasticsearch 提供带有高亮片段的全文搜索,还有 search-as-you-type 和 did-you-mean 的建议。卫报 使用 Elasticsearch 将网络社交数据结合到访客日志中,实时的给它的编辑们提供公众对于新文章的反馈。Stack Overflow 将地理位置查询融入全文检索中去,并且使用 more-like-this 接口去查找相关的问题与答案。GitHub 使用 Elasticsearch 对1300亿行代码进行查询。整体架构
如下图:
从以下架构图大概可以了解以下几点:
Elasticsearch底层是基于Lucene的。与用户交互是通过RESTful API来实现的。基本概念
如下图:
1,Cluster(集群)与Node(节点)
Cluster(集群):
在一个分布式系统里面,可以通过多个elasticsearch运行实例组成一个集群,这个集群里面有一个节点叫做主节点(master),elasticsearch是去中心化的,所以这里的主节点是动态选举出来的,不存在单点故障。
在同一个子网内,只需要在每个节点上设置相同的集群名,elasticsearch就会自动的把这些集群名相同的节点组成一个集群。节点和节点之间通讯以及节点之间的数据分配和平衡全部由elasticsearch自动管理。
在外部看来elasticsearch就是一个整体。
Node(节点):
每一个运行实例称为一个节点,每一个运行实例既可以在同一机器上,也可以在不同的机器上。所谓运行实例,就是一个服务器进程,在测试环境中可以在一台服务器上运行多个服务器进程,在生产环境中建议每台服
器运行一个服务器进程。
2,Index(索引)
类似于sql server中的数据库(database)。
3,Type(类型)
类似于sql server中的数据表(table),es可以在一个Index中建立多个Type,其中每个Type中的数据结构可以是不同的,然后通过mapping进行映射。
4,Document(文档)
类似于sql server中的行(row),es中存储的数据是文档型的, 一条数据对应一个文档即相当于sql server中的一行,一个document可以有多个字段。
5,Field(字段)
类似于sql server数据表中的列(column)。
6,Mapping(映射)
类似于sql server中的schema。
7,Query DSL
类似于sql server中的sql语句,只不过在es中使用JSON格式的查询语句,专业术语就叫:Query DSL
8,PUT/POST/DELETE/GET
RESTful API,分别对应新增,修改,删除和查询。