进入正题之前,解决之前的一个疑问:Elasticsearch集群是否已经正确工作?
截图时,只上传过一次小测试数据(143万条),设置为:
"number_of_shards": 5,
"number_of_replicas": 2
- 从图中可以看出,ip10节点上设置的数据目录:data1和data2目录工作正常,但是数据相同
- ip12中数据与ip10中数据不同,但是data1与data2数据相同
- ip13数据与ip12相同
- ip11既不是master候选者,也不是data节点,验证发现确实无数据
分配多个分片和副本是分布式搜索功能设计的精髓
测试环境
系统:macOS 10.13.4
处理器:2.3Ghz Inter Core i5
内存:8 GB 2133 MHz LPDDR3
SSDs
确保性能测试持续30分钟以上以确认长时间的性能;短时间的测试可能不会碰到segment合并和GC,无法确认这些因素的影响
因时间有限,我就不那样测了。
PS:但是我的测试集确实太小了些,象征性的思路、过程走一波吧。
优化缘由
近1T(约5亿)数据需上传elasticsearch集群,但是第一次的测序跑了会后,预估大概需要跑56小时
[
单机器上传:
centos 6.9
Intel(R) Xeon(R) CPU E5-2620 v2 @ 2.10GHz
48G内存
]
用十万条数据做基准测试
1.索引 diglab_1:
"