文章目录
-
- 上篇
-
- 1、ElasticSearch 了解多少,说说你们公司 es 的集群架构,索引数据大小,分片有多少,以及一些调优手段 。
- 2、ElasticSearch 的倒排索引是什么?
- 3、ElasticSearch 索引数据多了怎么办,如何调优,部署?
- 4、ElasticSearch 是如何实现 master 选举的?
- 5、详细描述一下 ElasticSearch 索引文档的过程
- 6、详细描述一下 Elasticsearch 搜索的过程?
- 7、ElasticSearch 在部署时,对 Linux 的设置有哪些优化方法?
- 8、lucence 内部结构是什么?
- 9、Elasticsearch 是如何实现 Master 选举的?
- 10、Elasticsearch 中的节点(比如共 20 个),其中的10 个选了一个 master,另外 10 个选了另一个 master,怎么办?
- 11、客户端在和集群连接时,如何选择特定的节点执行请求的?
- 12、详细描述一下 ElasticSearch 索引文档的过程
- 下篇
-
- 1、详细描述一下 ElasticSearch 更新和删除文档的过程
- 2、详细描述一下 ElasticSearch 搜索的过程
- 3、在 ElasticSearch 中,是怎么根据一个词找到对应的倒排索引的?
- 4、ElasticSearch 在部署时,对 Linux 的设置有哪些优化方法?
- 5、对于 GC 方面,在使用 ElasticSearch 时要注意什么?
- 6、ElasticSearch 对于大数据量(上亿量级)的聚合如何实现?
- 7、在并发情况下,ElasticSearch 如果保证读写一致?
- 8、如何监控 Elasticsearch 集群状态?
- 9、介绍下你们电商搜索的整体技术架构
- 10、介绍一下你们的个性化搜索方案?
- 11、是否了解字典树?
- 12、拼写纠错是如何实现的?
上篇
1、ElasticSearch 了解多少,说说你们公司 es 的集群架构,索引数据大小,分片有多少,以及一些调优手段 。
如实结合自己的实践场景回答即可。
比如:ES 集群架构 13 个节点,索引根据通道不同共 20+索引,根据日期,每日递增 20+,索引:10分片,每日递增 1 亿+数据,每个通道每天索引大小控制:150GB 之内。
设计阶段调优
- 根据业务增量需求,采取基于日期模板创建索引,通过 roll over API 滚动索引;
- 使用别名进行索引管理;
- 每天凌晨定时对索引做 force_merge 操作,以释放空间;
- 采取冷热分离机制,热数据存储到 SSD,提高检索效率;冷数据定期进行 shrink操作,以缩减存储;
- 采取 curator 进行索引的生命周期管理;
- 仅针对需要分词的字段,合理的设置分词器;
- Mapping 阶段充分结合各个字段的属性,是否需要检索、是否需要存储等。
写入调优
- 写入前副本数设置为 0;
- 写入前关闭 refresh_interval 设置为-1,禁用刷新机制;
- 写入过程中:采取 bulk 批量写入;
- 写入后恢复副本数和刷新间隔;
- 尽量使用自动生成的 id。
查询调优
- 禁用 wildcard;
- 禁用批量 terms(成百上千的场景);
- 充分利用倒排索引机制,能 keyword 类型尽量 keyword;
- 数据量大时候,可以先基于时间敲定索引再检索;
- 设置合理的路由机制。
其他调优
- 部署调优,业务调优等。
2、ElasticSearch 的倒排索引是什么?
传统的我们的检索是通过文章,逐个遍历找到对应关键词的位置。
而倒排索引,是通过分词策略,形成了词和文章的映射关系表,这种词典+映射表即为倒排索引。有了
倒排索引,就能实现 O(1) 时间复杂度的效率检索文章了,极大的提高了检索效率。
学术的解答方式:
倒排索引,相反于一篇文章包含了哪些词,它从词出发,记载了这个词在哪些文档中出现过,由两部分组成——词典和倒排表。
加分项:倒排索引的底层实现是基于:FST(Finite State Transducer)数据结构。
lucene 从 4+版本后开始大量使用的数据结构是 FST。
FST 有两个优点:
- 空间占用小。通过对词典中单词前缀和后缀的重复利用,压缩了存储空间;
- 查询速度快。O(len(str))的查询时间复杂度。
3、ElasticSearch 索引数据多了怎么办,如何调优,部署?
索引数据的规划,应在前期做好规划,正所谓“设计先行,编码在后”,这样才能有效的避免突如
其来的数据激增导致集群处理能力不足引发的线上客户检索或者其他业务受到影响。
动态索引层面
- 基于模板+时间+rollover api 滚动创建索引,举例:设计阶段定义:blog 索引的模板格式为:
blog_index_时间戳的形式,每天递增数据。这样做的好处:不至于数据量激增导致单个索引数据量非常大,接近于上线 2 的32 次幂-1,索引存储达到了 TB+甚至更大。 - 一旦单个索引很大,存储等各种风险也随之而来,所以要提前考虑 + 及早避免。
存储层面
- 冷热数据分离存储,热数据(比如最近 3 天或者一周的数据),其余为冷数据。
- 对于冷数据不会再写入新数据,可以考虑定期 force_merge 加 shrink 压缩操作,节省存储空间和检索效率。
部署层面
- 一旦之前没有规划,这里就属于应急策略。
- 结合 ES 自身的支持动态扩展的特点,动态新增机器的方式可以缓解集群压力,注意:如果之前主节点等规划合理,不需要重启集群也能完成动态新增的。
4、ElasticSearch 是如何实现 master 选举的?
前置前提:
- 只有候选主节点(master:true)的节点才能成为主节点。
- 最小主节点数(min_master_nodes)的目的是防止脑裂。
核对了一下代码,核心入口为 findMaster,选择主节点成功返回对应 Master,否则返回 null。选举流
程大致描述如下:
- 第一步:确认候选主节点数达标,elasticsearch.yml 设置的值discovery.zen.minimum_master_nodes;
- 第二步:比较:先判定是否具备 master 资格,具备候选主节点资格的优先返回;
若两节点都为候选主节点,则 id 小的值会主节点。注意这里的 id 为 string 类型。
题外话:获取节点 id 的方法
1GET /_cat/nodes?v&h=ip,port,heapPercent,heapMax,id,name
2ip port heapPercent heapMax id name
5、详细描述一下 ElasticSearch 索引文档的过程
这里的索引文档应该理解为文档写入 ES,创建索引的过程。
文档写入包含:单文档写入和批量 bulk 写入,这里只解释一下:单文档写入流程。
记住官方文档中的这个图:
<