Lucene和Elastic Search的关系
- Lucene:最先进、功能最强大的搜索库,API相对比较复杂。
- Elastic Search:基于Lucene,封装了许多Lucene的底层功能,提供简单易用的Restful API接口和许多语言的客户端,例如Java的高级客户端(Java High Level REST Client)和底层客户端(Java Low Level REST Client)。
小插曲:2004年Shay Banon失业,陪老婆去伦敦学习厨师。失业后在家帮老婆写一个菜谱搜索引擎compass,封装了Lucene的开源项目。找到工作后,因为做分布式高性能项目再次封装了compass,写出了Elastic Search,使得Lucene支持分布式,ES由此而生。现如今Shay Banon是Elastic Search的创始人兼Elastic首席执行官。
Elastic Search核心概念
- NRT(Near Realtime):近实时
- 写入时:大约过1秒才会被搜索到,因为内部在分词、录入索引。
- 搜索时:搜索和分析数据需要秒级出结果。
-
Cluster:集群
包含一个或多个启动着ES实例的机器群。通常一台机器起一个ES实例。同一网络下,集群名一样的多个ES实例自动组成集群,自动均衡分片等行 为。默认集群名为“elasticsearch”。 -
Node:节点
每个ES实例称为一个节点。节点名自动分配,也可以手动配置。 -
Index:索引
包含一堆有相似结构的文档数据。
索引创建规则:
- 仅限小写字母
- 不能包含\、/、 *、?、"、<、>、|、#以及空格符等特殊符号
- 从7.0版本开始不再包含冒号
- 不能以-、_或+开头
- 不能超过255个字节(注意它是字节,因此多字节字符将计入255个限制)
-
Document:文档
ES中的最小数据单元。一个document就像数据库中的一条记录。通常以JSON格式显示。多个document存储于一个索引(Index)中。 -
Field:字段
就像数据库中的列(Columns),定义每个document应该有的字段。 -
Type:类型
每个索引里都可以有一个或多个type,type是index中的一个逻辑数据分类,一个type下的document,都有相同的field。
注意:6.0之前的版本有type(类型)概念,type相当于关系数据库的表,ES官方将在ES9.0版本中彻底删除type。 -
shard:分片
index数据过大时,将index里面的数据,分为多个shard,分布式的存储在各个服务器上面。可以支持海量数据和高并发,提升性能和吞吐量,充分利用多台机器的CPU。 -
replica:副本
在分布式环境下,任何一台机器都会随时宕机,如果宕机,index的一个分片没有,导致此index不能搜索。所以为了保证数据的安全,我们会将每个index的分片经行备份,存储在另外的机器上。保证少数机器宕机ES集群仍可以搜索。
能正常提供查询和插入的分片我们叫做主分片(primary shard),其它的叫做备份的分片(replica shard)。
ES6默认新建索引时,5分片,2副本,也就是一主一备,共10个分片。所以ES集群最小规模为两台。
Elastic Search 对比 DataBase
关系型数据库(例如MySQL) | 非关系型数据库(Elasticsearch) |
---|---|
数据库Database | 索引Index |
表Table | 索引Index(原为Type) |
数据行Row | 文档Document |
数据列Column | 字段Field |
约束 Schema | 映射Mapping |