-
数据预热
回放线上流量,进行数据的预加载到内存中去 (tcpcopy tcpdump 回放机器、辅助机器)
-
冷热分离
热数据尽量都放在内存中,这样提高数据的响应时间
-
模型设计
写入索引的时候,就将关联的数据直接写入进去,不要在搜索的时候进行join,因为ES中的复杂查询都很耗费性能。就像mysql外键类似的情况需要禁止
-
分页查询
分布式的,查100页的10条数据,必须从每个shard,都查询一批数据过来,然后拿过来在内存里面分页,页翻得越深,基本查询性能很差。优化策略:1.不允许深度分页 2.类似于下拉分页的话,可以使用 scroll api 进行查询。它的分页原理,会一次性生成快照,然后通过游标一次一次往下翻,无论翻多少页,性能就是毫秒级的,scroll 智能一页一页往后翻,天然适合微博,往下拉的时候。
curl -XGET 'localhost:9200/twitter/tweet/_search?scroll=1m' -d ' { "query": { "match" : { "title" : "elasticsearch" } } } 该查询会自动返回一个_scroll_id,通过这个id(经过base64编码)可以继续查询 curl -XGET '*.*.*.*:9200/_search/scroll?scroll=1m&scroll_id=DXF1ZXJ5QW5kRmV0Y2gBAAAAAAEcfmIWUzlwTW9leWlTM0dVQ2dTZldCUmJtZw=='
备注: scroll=1m(保持活动1分钟) 后面所有页都是同一个参数值scroll_id 保持不变
- 将不是筛选条件,排序条件的字段 勿加入索引字段中去。由调用模块自己去查询
海量数据检索查询性能优化思路
最新推荐文章于 2022-03-17 09:10:00 发布