文章目录
-
- 上篇
-
- 1、ElasticSearch 了解多少,说说你们公司 es 的集群架构,索引数据大小,分片有多少,以及一些调优手段 。
- 2、ElasticSearch 的倒排索引是什么?
- 3、ElasticSearch 索引数据多了怎么办,如何调优,部署?
- 4、ElasticSearch 是如何实现 master 选举的?
- 5、详细描述一下 ElasticSearch 索引文档的过程
- 6、详细描述一下 Elasticsearch 搜索的过程?
- 7、ElasticSearch 在部署时,对 Linux 的设置有哪些优化方法?
- 8、lucence 内部结构是什么?
- 9、Elasticsearch 是如何实现 Master 选举的?
- 10、Elasticsearch 中的节点(比如共 20 个),其中的10 个选了一个 master,另外 10 个选了另一个 master,怎么办?
- 11、客户端在和集群连接时,如何选择特定的节点执行请求的?
- 12、详细描述一下 ElasticSearch 索引文档的过程
- 下篇
-
- 1、详细描述一下 ElasticSearch 更新和删除文档的过程
- 2、详细描述一下 ElasticSearch 搜索的过程
- 3、在 ElasticSearch 中,是怎么根据一个词找到对应的倒排索引的?
- 4、ElasticSearch 在部署时,对 Linux 的设置有哪些优化方法?
- 5、对于 GC 方面,在使用 ElasticSearch 时要注意什么?
- 6、ElasticSearch 对于大数据量(上亿量级)的聚合如何实现?
- 7、在并发情况下,ElasticSearch 如果保证读写一致?
- 8、如何监控 Elasticsearch 集群状态?
- 9、介绍下你们电商搜索的整体技术架构
- 10、介绍一下你们的个性化搜索方案?
- 11、是否了解字典树?
- 12、拼写纠错是如何实现的?
上篇
1、ElasticSearch 了解多少,说说你们公司 es 的集群架构,索引数据大小,分片有多少,以及一些调优手段 。
如实结合自己的实践场景回答即可。
比如:ES 集群架构 13 个节点,索引根据通道不同共 20+索引,根据日期,每日递增 20+,索引:10分片,每日递增 1 亿+数据,每个通道每天索引大小控制:150GB 之内。
设计阶段调优
- 根据业务增量需求,采取基于日期模板创建索引,通过 roll over API 滚动索引;
- 使用别名进行索引管理;
- 每天凌晨定时对索引做 force_merge 操作,以释放空间;
- 采取冷热分离机制,热数据存储到 SSD,提高检索效率;冷数据定期进行 shrink操作,以缩减存储;
- 采取 curator 进行索引的生命周期管理;
- 仅针对需要分词的字段,合理的设置分词器;
- Mapping 阶段充分结合各个字段的属性,是否需要检索、是否需要存储等。
写入调优
- 写入前副本数设置为 0;
- 写入前关闭 refresh_interval 设置为-1,禁用刷新机制;
- 写入过程中:采取 bulk 批量写入;
- 写入后恢复副本数和刷新间隔;
- 尽量使用自动生成的 id。
查询调优
- 禁用 wildcard;
- 禁用批量 terms(成百上千的场景);
- 充分利用倒排索引机制,能 keyword 类型尽量 keyword;
- 数据量大时候,可以先基于时间敲定索引再检索;
- 设置合理的路由机制。
其他调优
- 部署调优,业务调优等。
2、ElasticSearch 的倒排索引是什么?
传统的我们的检索是通过文章,逐个遍历找到对应关键词的位置。
而倒排索引,是通过分词策略,形成了词和文章的映射关系表,这种词典+