Apache Druid 0.18.1使用准确值去重方式

最新推荐文章于 2024-04-19 10:57:44 发布

置顶极客架构

最新推荐文章于 2024-04-19 10:57:44 发布

阅读量939

点赞数

分类专栏： druid 文章标签：算法 java 大数据数据分析

本文链接：https://blog.csdn.net/tianshishangxin1/article/details/106456738

版权

druid 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

简述

Apache druid 中的 COUNT(DISTINCT expr) 默认是使用近似值算法HyperLogLog.
原来介绍过druid本身是为了海量数据分析而设计，所以在大数据量的情况下，使用近似值算法，速度更快。但有的需求，数据量本身较小，对数据的精准性要求比较高。不希望使用近似值的方式。

取消近似值的方式

连接时设置 `useApproximateCountDistinct`

useApproximateCountDistinct 默认值是true,设置false后，将使用精准值计算。

 String url = "jdbc:avatica:remote:url=http://" + "ip:8082"
                         + "/druid/v2/sql/avatica/";

            Properties connectionProperties = new Properties();
             connectionProperties.setProperty("useApproximateCountDistinct","false"）
         
            Connection connection = DriverManager.getConnection(url, connectionProperties);

broker 配置

druid.sql.planner.useApproximateCountDistinct=false

总结

根据自己的需求场景设置，一般建议在连接时使用，更加灵活些。在broker加入配置后，所有的近似值都将无法生效。也将会影响查询性能。

极客架构

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Apache Druid 0.18.1使用准确值去重方式

Apache druid 中的 COUNT(DISTINCT expr) 默认是使用近似值算法HyperLogLog. 原来介绍过druid本身是为了海量数据分析而设计，所以在大数据量的情况下，使用近似值算法，速度更快。但有的需求，数据量本身较小，对数据的精准性要求比较高。不希望使用近似值的方式。
复制链接

扫一扫