T-digest

本文介绍了T-digest算法,用于计算数据的分位数。该算法通过将数据聚合为簇来减少空间消耗,并通过调整簇的大小来控制误差界限。T-digest的特点在于其能够更精确地估算位于数据分布两端的分位数。文章涵盖了算法原理、空间消耗和错误界限,以及建立和查询T-digest的示例。
摘要由CSDN通过智能技术生成

上一篇博客中讲述了使用 R a n d o m Random Random算法进行 q u a n t i l e quantile quantile估算,详情可见Random,本博客将讲诉另外一个 q u a n t i l e quantile quantile估算算法: T − d i g e s t T-digest Tdigest,该算法理论基础可以参考Computing Extremely Accurate Quantiles Using t-Digest

算法

算法原理

该算法的思想是将输入数据表示缩减成簇的集合 { C i } 1 m \{C_{i}\}^m_1 { Ci}1m,每个簇表示为: ( C i , C c o u n t ) (C_i,C_{count}) (Ci,Ccount) C i C_i Ci表示该簇的中心,一般是等于簇中元素的平均值, C c o u n t C_{count} Ccount则是该簇中对应的元素的数量。簇的大小极大影响了算法的准确率,假设簇的较大,则会导致结果误差偏大;假设簇的大小较小,则会导致结果准确,但另一方面计算的复杂度对增加。对于一般的问题而言,我们更加关注位于两端的 q u a n t i l e quantile qua

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值