1.数组的集中趋势-如何定义数组的中心
1.1 常用几下几个指标来描述一个数组的集中趋势
均值-算术平均数
。
中位数-将数组升序或降序排列后,位于中间的数。
众数-数组中出现最多的数。
1.2 指标特点
优点
缺点
均值
充分利用所有数据,包含最多信息量,适用性强,应用最为广泛
极易受到异常值的影响,产生数据倾斜
中位数
避免异常值的影响
不敏感
众数
能够很好反应数组的集中趋势
当数组没有明显的集中趋势时,基本没有信息量
1.3 均值使用场景
场景:双11过后,淘宝店需要选择一个指标代表十一月的销售情况,应该如何选择呢?日均销售额是否适合?
回答:如果需要对外公布业绩或是向供应商结算的时候,日均销售额可用,因为这是十一月的真实数据。但如果需要依赖十一月销售额推断十二月销售额时或是判断十一月销售能力对比十月是否有提升时 ,十一月日均销售额不可用,因为双十一销售额的猛涨强依赖于外部环境变换,这种情况下双十一销售额为异常值,不可能在十二月复现,这种情况下十一月日销售额中位数优于日均销售额。
总结:在判断3个代表集中趋势的判断指标使用场景时,应该优先判断均值是否可用。当统计样本中存在极大值或极小值,且极值在我们需要处理的场景中不会复现,这种情况下均值不可用。
1.4 EXCEL和Python语言中的实现
EX