Sql进阶技巧:如何计算截断平均值?【场景:去掉最大最小值的平均值】

106 篇文章 13 订阅 ¥19.90 ¥99.00

目录

0 引言

1 问题描述【字节跳动】

2 数据准备

3 数据分析

 方法1:利用dense_rank()函数进行标记最大最小值

方法2:筛选符合条件范围内数据求解【不通用】

方法3:公式法。【不通用】

 方法4:利用百分位函数,PERCENT_RANK()函数求解【通用】

4 小结



0 引言

        截断平均值是一种统计方法,它通过减少离群值的影响来更可靠地估计数据集的集中趋势。与传统的算术平均值(平等考虑所有数据点)不同,截断平均值涉及在计算平均值之前删除指定百分比的最低值和最高值。在处理可能包含可能扭曲结果的极端值的数据集时,此技术在数据分析中特别有用。要计算截断平均值,首先必须确定要从数据集两端修剪的数据百分比。例如,如果需要 10% 的截断平均值,则删除最低的 10% 和最高的 10% 的数据点。经过此裁剪过程后,使用剩余的数据点计算平均值。此方法可确保集中趋势反映大多数数据,从而更准确地表示数据集的典型值。截端平均值广泛应用于金融、经济和社会科学等各个领域,这些领域的数据集通常包含可能扭曲分析的异常值。例如,在金融数据分析中,极端值可能来自市场异常或罕见事件。通过使用截断均值,分析师可以获得更可靠的平均收益或支出指标,从而做出更明智的决策。尽管有诸多优点,但截断均值也有局限性。一个显著的缺点是,它可能导致有价值的信息丢失,特别是当修剪后的数据点不是真正的异常值而是重要的观测值时。此外,修剪百分比的选择可能有些随意,不同的百分比会产生不同的结果。这种可变性可能会使跨研究或数据集的比较变得复杂。

     在SQL实际数值计算中,截断平均最常见的场景是去掉一个最大值和一个最小值计算平均值,或者计算字段前m条记录和后n条记录的平均值。本文针对去掉最大最小值的平均值

  • 7
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值