海量数据检索查询性能优化思路

最新推荐文章于 2022-03-17 09:10:00 发布

快乐的码农一枚

最新推荐文章于 2022-03-17 09:10:00 发布

阅读量421

点赞数

分类专栏： Es 大数据量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ma_ru_long/article/details/105832657

版权

Es 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

数据预热

回放线上流量，进行数据的预加载到内存中去 (tcpcopy tcpdump 回放机器、辅助机器)
冷热分离

热数据尽量都放在内存中，这样提高数据的响应时间
模型设计

写入索引的时候，就将关联的数据直接写入进去，不要在搜索的时候进行join，因为ES中的复杂查询都很耗费性能。就像mysql外键类似的情况需要禁止
分页查询

分布式的，查100页的10条数据，必须从每个shard，都查询一批数据过来，然后拿过来在内存里面分页，页翻得越深，基本查询性能很差。优化策略：1.不允许深度分页 2.类似于下拉分页的话，可以使用 scroll api 进行查询。它的分页原理，会一次性生成快照，然后通过游标一次一次往下翻，无论翻多少页，性能就是毫秒级的，scroll 智能一页一页往后翻，天然适合微博，往下拉的时候。
```
  curl -XGET 'localhost:9200/twitter/tweet/_search?scroll=1m' -d '
   {
        "query": {
             "match" : {
             "title" : "elasticsearch"
          }
       }
    }

该查询会自动返回一个_scroll_id，通过这个id(经过base64编码)可以继续查询

curl -XGET  '*.*.*.*:9200/_search/scroll?scroll=1m&scroll_id=DXF1ZXJ5QW5kRmV0Y2gBAAAAAAEcfmIWUzlwTW9leWlTM0dVQ2dTZldCUmJtZw=='
```
备注： scroll=1m(保持活动1分钟) 后面所有页都是同一个参数值scroll_id 保持不变
将不是筛选条件，排序条件的字段勿加入索引字段中去。由调用模块自己去查询

快乐的码农一枚

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
海量数据检索查询性能优化思路

数据预热冷热分离模型设计写入索引的时候，就将关联的数据直接写入进去，不要在搜索的时候进行join，因为ES中的复杂查询都很耗费性能。分页查询分布式的，查100页的10条数据，必须从每个shard，都查询一批数据过来，然后拿过来在内存里面分页，页翻得越深，基本查询性能很差。优化策略：1.不允许深度分页 2.类似于下拉分页的话，可以使用 scroll...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。