ES: 架构及原理

最新推荐文章于 2024-08-08 14:53:21 发布

huojiao2006

最新推荐文章于 2024-08-08 14:53:21 发布

阅读量3k

点赞数 2

分类专栏： ES

ES 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Elasticsearch 是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。

说明：
Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。
Elasticsearch 是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为他们建立索引，这样你就可以搜索他们了

应用场景

站内搜索：主要和 Solr 竞争，属于后起之秀
NoSQL json文档数据库：主要抢占 Mongo 的市场，它在读写性能上优于 Mongo ，同时也支持地理位置查询，还方便地理位置和文本混合查询，属于歪打正着（对比测试参见：http://blog.quarkslab.com/mongodb-vs-elasticsearch-the-quest-of-the-holy-performances.html）
监控：统计以及日志类时间序的数据的存储和分析以及可视化，这方面是引领者
国外：Wikipedia使用 ES 提供全文搜索并高亮关键字、StackOverflow结合全文搜索与地理位置查询、Github使用Elasticsearch检索1300亿行的代码
国内：百度（在casio、云分析、网盟、预测、文库、直达号、钱包、风控等业务上都应用了- - ES，单集群每天导入30TB+数据，总共每天60TB+）、新浪（见大数据架构–log），阿里巴巴、腾讯等公司均有对ES的使用
使用比较广泛的平台ELK(ElasticSearch, Logstash, Kibana)

solr VS ES

Solr是Apache Lucene项目的开源企业搜索平台。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成，以及富文本（如Word、PDF）的处理。
Solr是高度可扩展的，并提供了分布式搜索和索引复制。Solr是最流行的企业级搜索引擎，Solr4 还增加了NoSQL支持。
Solr是用Java编写、运行在Servlet容器（如 Apache Tomcat 或Jetty）的一个独立的全文搜索服务器。 Solr采用了 Lucene Java 搜索库为核心的全文索引和搜索，并具有类似REST的HTTP/XML和JSON的API。
Solr强大的外部配置功能使得无需进行Java编码，便可对其进行调整以适应多种类型的应用程序。Solr有一个插件架构，以支持更多的高级定制

Elasticsearch 与 Solr 的比较总结

1.二者安装都很简单
2.Solr 利用 Zookeeper 进行分布式管理，而 Elasticsearch 自身带有分布式协调管理功能
3.Solr 支持更多格式的数据，而 Elasticsearch 仅支持json文件格式
4.Solr 官方提供的功能更多，而 Elasticsearch 本身更注重于核心功能，高级功能多有第三方插件提供
5.Solr 在传统的搜索应用中表现好于 Elasticsearch，但在处理实时搜索应用时效率明显低于 Elasticsearch
6.Solr 是传统搜索应用的有力解决方案，但 Elasticsearch 更适用于新兴的实时搜索应用

核心概念

1.集群（Cluster)

包含一个或多个具有相同 cluster.name 的节点.

1.集群内节点协同工作，共享数据，并共同分担工作负荷。
2.由于节点是从属集群的，集群会自我重组来均匀地分发数据.
3.cluster Name是很重要的，因为每个节点只能是群集的一部分，当该节点被设置为相同的名称时，就会自动加入群集。
4.集群中通过选举产生一个mater节点，它将负责管理集群范畴的变更，例如创建或删除索引，添加节点到集群或从集群删除节点。master 节点无需参与文档层面的变更和搜索，这意味着仅有一个 master 节点并不会因流量增长而成为瓶颈。任意一个节点都可以成为 master 节点。我们例举的集群只有一个节点，因此它会扮演 master 节点的角色。
5.作为用户，我们可以访问包括 master 节点在内的集群中的任一节点。每个节点都知道各个文档的位置，并能够将我们的请求直接转发到拥有我们想要的数据的节点。无论我们访问的是哪个节点，它都会控制从拥有数据的节点收集响应的过程，并返回给客户端最终的结果。这一切都是由 Elasticsearch 透明管理的

2.节点(node)

一个节点是一个逻辑上独立的服务，可以存储数据，并参与集群的索引和搜索功能, 一个节点也有唯一的名字，群集通过节点名称进行管理和通信.

3.索引（Index)

索引与关系型数据库实例(Database)相当。索引只是一个逻辑命名空间，它指向一个或多个分片(shards)，内部用Apache Lucene实现索引中数据的读写

4.文档类型（Type）

相当于数据库中的table概念。每个文档在ElasticSearch中都必须设定它的类型。文档类型使得同一个索引中在存储结构不同文档时，只需要依据文档类型就可以找到对应的参数映射(Mapping)信息，方便文档的存取

5.文档（Document)

相当于数据库中的row，是可以被索引的基本单位。例如，你可以有一个的客户文档，有一个产品文档，还有一个订单的文档。文档是以JSON格式存储的。在一个索引中，您可以存储多个的文档。请注意，虽然在一个索引中有多分文档，但这些文档的结构是一致的，并在第一次存储的时候指定, 文档属于一种类型(type)，各种各样的类型存在于一个索引中。

你也可以通过类比传统的关系数据库得到一些大致的相似之处：

关系数据库       ⇒ 数据库 ⇒ 表    ⇒ 行    ⇒ 列(Columns)
Elasticsearch  ⇒ 索引   ⇒ 类型  ⇒ 文档   ⇒ 字段(Fields)

模拟示意图如：

6.Mapping：

相当于数据库中的schema，用来约束字段的类型，不过 Elasticsearch 的 mapping 可以自动根据数据创建
分片(shard) ：
是工作单元(worker unit) 底层的一员，用来分配集群中的数据，它只负责保存索引中所有数据的一小片。
分片是一个独立的Lucene实例，并且它自身也是一个完整的搜索引擎。
文档存储并且被索引在分片中，但是我们的程序并不会直接与它们通信。取而代之，它们直接与索引进行通信的
把分片想象成一个数据的容器。数据被存储在分片中，然后分片又被分配在集群的节点上。当你的集群扩展或者缩小时，elasticsearch 会自动的在节点之间迁移分配分片，以便集群保持均衡
分片分为主分片(primary shard) 以及从分片(replica shard) 两种。在你的索引中，每一个文档都属于一个主分片
从分片只是主分片的一个副本，它用于提供数据的冗余副本，在硬件故障时提供数据保护，同时服务于搜索和检索这种只读请求
索引中的主分片的数量在索引创建后就固定下来了，但是从分片的数量可以随时改变。
一个索引默认设置了5个主分片，每个主分片有一个从分片对应

ES模块结构