{"size":"0",
"aggs": {
"profit": {
"scripted_metric": {
"init_script" : "state.transactions =[]",
"map_script" : "state.transactions.add(doc['operatedate.keyword'].value.substring(0,4))",
"combine_script" : "Map profit = new HashMap(); for (t in state.transactions) { if(profit.containsKey(t)){profit.put(t,profit.get(t)+1)} if (!profit.containsKey(t)){profit.put(t,1)}} return profit",
"reduce_script" : "Map profit = new HashMap(); for (a in states) { profit .putAll( a) } return profit"
}
}
}
}
这里 解释下我 个人的理解 结合 官方的还有其他的帖子 如果 理解 MapReduce 这个很像
第一步骤:init_script 是初始化 一个容器这个 (我这里 初始化一个数组)就是 像 map 端的数据 流入 每个 节点 都有一个 初始化的容器 可以是java Map 和List 注意 要用 实体类 而不是 直接使用Map 父类 这样 会造成 初始化不了 这里参考 java 使用 Map 就可以 这里没有固定几个 两个 也可以我看见其他人写过
第二步骤 map_script 就是 分别在各个 分片上执行 你想要的逻辑 我这里是 (生产环境 的 date 类型居然 变成了 Text 还有keyword 混合类型这里吐槽下恶心 如果是 时间类型 直接 直方图 解决) 截取 前4位 也就是 年 这里 可以不用 做 任何 逻辑 只取数
第三步骤 combine_script z 类似于 预聚合 就是将这个节点收集 起来的数据 先进行逻辑处理 比如我这里 业务是按年分组(yyyy-MM-dd HH:mm:ss)所以 逻辑 不复杂就是 将 不同的时间放到不同 key 里面 有相同的就加一
第四步骤reduce_script就是reduce 聚合 这里将第三步 做好的预聚合 同一发送到 一个节点 统计处理 (这里我没有写逻辑但是 这里 我只是 将 Map 遍历后 重新放入 所以可能 底层做 加和 运算了 这样 就 有数据输出)
{
"took" : 1,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 11,
"relation" : "eq"
},
"max_score" : null,
"hits" : [ ]
},
"aggregations" : {
"profit" : {
"value" : {
"2021" : 3,
"2020" : 7,
"2019" : 1
}
}
}
}
ps : 小小吐槽下 时间类型 用text 不知道怎么 做的范围查询 难为以前的 开发人员了 不过好在 马上要改了 不过这个 着实让我头疼了
还有一个方式就是 聚合脚本 的 模式 不知道 上下两种哪个性能要好一些 下面这个 如果节点很多会抛出 75/5m 哪个异常 需要设置下 范围 提升到 100/1m 接触不到生产环境闭门开发的一个小白 如果帮到了你 不要吝啬你的赞 ~~~~
{
"query": {
"match_all": {}
},"aggs": {
"NAME": {
"terms":{
"script": {
"source": "def domain = doc['operatedate.keyword'].value;def beginIndex1 =domain.substring(0,4);return beginIndex1"
}
}
}
}
}