数据的偏态分布

偏态分布

频数分布有正态分布和偏态分布之分。
正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。统计数据峰值与平均值相等的频率分布。
偏态分布是指频数分布不对称,集中位置偏向一侧。统计数据峰值与平均值不相等的频率分布。
若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则成为负偏态分布,也称左偏态分布

总结为:

  • 峰左移,右偏,正偏。
  • 峰右移,左偏,负偏。
    在这里插入图片描述

偏态分布平均数、中位数、众数的关系

左偏分布(负偏态)中:mean(平均数)<median(中位数)<mode(众数)

右偏分布(正偏态)中:mode(众数)<median(中位数)<mean(平均数)
这个关系是什么出来的呢,其实不太好理解,我也是想了很久才想出来的一个能让自己理解的方法,在这里分享一下。
首先我们看正态分布,正态分布的情况下,mode(众数)== median(中位数)== mean(平均数)
然后我们来看右偏,就是右边有尾巴的。相当于在正太分布的基础上右边增加了很大的异常值,我们知道异常值对均值影响大,对中位数影响小、对众数无影响。在正态分布的基础上在右边加上异常值,对众数没有影响,所以可以认为众数不变,还是正态分布的众数。由于异常值对均值和中位数都有影响,所以他们都会右移。但是平均值对异常值更敏感,右移更多,中位数对异常值不敏感(因为中位数是排序后在中间的数),右移更少。所以mode(众数)<median(中位数)<mean(平均数)。左偏是同样的道理。
注意这个解释只在大量的统计上有意义,如果就几个样本点,可能会出现反例。

参考博客:

  1. 左偏和右偏
  2. 一、何为数据的偏态分布?
  • 20
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
狭义数据分析1 抽样理论 集中趋势:均值、中位数、分位数、众数 离中趋势:标准差、⽅差 数据分布偏态、峰态、正态分布 抽样理论:抽样误差、抽样精度 均值 df.mean() 计算:数字加起来除以总量 作⽤:经常⽤来衡量⼀些连续值,尤其是分布⽐较规律、均匀的连续值的集中趋势。 中位数 df.median() 作⽤:衡量异常值,有⼀些特别⼤或者特别⼩,⽤中位数衡量异常值的集中趋势。 众数 df.mode() 作⽤:⽤在离散值的集中趋势衡量。 分位数 df.quantile() 概述:就是把数据从⼩到⼤排列,然后切分成等份的数据点,最常⽤是四分位数。 计算:总数n,Q1位置=(n+1)*0.25,Q2位置=(n+1)*0.5,Q3位置=(n+1)*0.75 作⽤:配合其他⼀起使⽤ 离中趋势:df.std() df.var() 是数据离散程度的衡量,衡量的量有标准差和⽅差 ⽅差或标准差越⼤就表⽰数据越离散,越⼩就表⽰数据越聚拢 偏态系数: df.skew() 数据平均值离状态的⼀种衡量,要注意的是这⾥偏态指的是离平均值,通常⼀个对称性的数据来讲,他的中位数和平均值是⾮常接 近的。但有的时候数据并⾮是对称分布的,这样中位数和均值就会差得⽐较多,这样的分布就是有偏态分布。均值⽐中位数⼤就是正。 如果算出来的偏态系数是负的,就是负,那就是处于⼀个⽐较好的状态,⼤多数⼈⽐较满意的状态。 峰态系数: 数据集中程度的衡量,这个值越⼤,顶就会越尖,这个值越⼩,分布就会更平缓⼀些。正太分布的峰态系数是3,所以经常有算法将这个值 减去3,将正太分布的系数定为0也是可以的。如果有⼀个分布的峰态系数 1<K<5 也就是说他和正态分布的峰态系数相差⼤于了2,那么基 本可以断定这个分布不是正太分布了。所以峰态系数主要的作⽤就是可以直接否定⼀个分布不是正态分布。 三⼤分布: 卡⽅分布,t分布,f分布 卡⽅分布: ⼏个变量都是标准正态分布(均值为0,⽅差为1),如果⼏个标准正态分布,它的平⽅和满⾜⼀个分布,那么这个分布就是卡⽅分布。 t分布: 正态分布的⼀个随机变量除以⼀个服从卡⽅分布的变量就是t分布。 作⽤:t分布经常⽤来根据⼩样本,来估计成正态分布且⽅差未知的总体的均值 f分布: 是由构成两个服从卡⽅分布的随机变量的⽐构成的,就是两个卡⽅分布的商。 正态分布的定义 有⼏种不同的⽅法⽤来说明⼀个随机变量。最直观的⽅法是概率密度函数,这种⽅法能够表⽰随机变量每个取值有多⼤的可能性。累积分布 函数是⼀种概率上更加清楚的⽅法 抽样理论 抽样分为重复抽样和⾮重复抽样(抽完以后不放回) 抽样⽅式:完全随机抽样,等差距抽样(根据某个属性,从低到⾼进⾏排列,等差距的进⾏抽样),分类分层抽样(根据各个类别的⽐例进 ⾏抽样,保证样本在这个类别下的抽样与总体是⼀致的) 重复抽样的误差、⾮重复抽样的误差都有对应的计算公式 应⽤实例1----根据平均误差和平均值估计准确的平均值: 因为是放回的抽样,根据公式算出了误差 μ 因为有95%的概率保证,根据正太分布即为-2μ ~ +2μ之间,所以估计平均每条草鱼的质量在 平均值-2μ 到平均值+2μ之内 (1.86~2.14公⽄) 实例2---------计算要抽样的数量: 理论部分的代码实现 各个数值 import pandas as pd df = pd.read_csv(path) df.mean() df.median() df.var() 利⽤分布函数给出x值求出y值 import scipy.stats as ss ss.norm # ⽣成⼀个正太分布对象 ss.norm.stats(moments='mvsk')# 查看默认的正态分布的参数 mean var skew kurt # Out[13]: (array(0.), array(1.), array(0.), array(0.)) 利⽤公式 ss.norm.pdf(0.0)# 带⼊具体的x值 # Out[14]: 0.3989422804014327 ss.norm.pdf(0.0) Out[14]: 0.3989422804014327 ss.norm.ppf(0.9)# 概率密度函数从-⽆穷到+⽆穷的积分是1,ppf是指从-⽆穷到啥的积分是参数 Out[15]: 1.2815515655446004 ss.norm.cdf(2)# 从-⽆穷到给定参数的积分是多少 Out[16]: 0.9772498680518208 ss.norm.cdf(2) - ss.norm.cdf(-2)# Out[17]: 0.9544997361036416 ss.norm.rvs(size=10)# ⽣成10个符合正态分布的数 Out[18]: array([ 0.40
描述性数据分析 ⼀、什么是描述统计分析(Descriptive Analysis) 概念:使⽤⼏个关键数据来描述整体的情况 描述性数据分析属于⽐较初级的数据分析,常见的分析⽅法包括对⽐分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所 有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据分布、以及⼀些基本的统计 图形。 Excel⾥的分析⼯具库⾥的数据分析可以实现描述性统计分析的功能。 描述性统计分析即是对数据源最初的认知,其次才能去做⼀些其他的分析。 ⼆、常⽤指标 均值、中位数、众数体现了数据的集中趋势。 极差、⽅差、标准差体现了数据的离散程度。 度、峰度体现了数据分布形状。 1、均值。均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较⼤的差。 2、中位数:数据按照从⼩到⼤的顺序排列时,最中间的数据即为中位数。当数据个数为奇数时,中位数即最中间的数,如果有N个数,则 中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。中位数不受极值影响,因此 对极值缺乏敏感性。 3、众数:数据中出现次数最多的数字,即频数最⼤的数值。众数可能不⽌⼀个,众数不能能⽤于数值型数据,还可⽤于⾮数值型数据,不 受极值影响。 4、极差:=最⼤值-最⼩值,是描述数据分散程度的量,极差描述了数据的范围,但⽆法描述其分布状态。且对异常值敏感,异常值的出现 使得数据集的极差有很强的误导性。 5、四分位数:数据从⼩到⼤排列并分成四等份,处于三个分割点位置的数值,即为四分位数,四分位数分为上四分位数(数据从⼩到⼤排 列排在第75%的数字,即最⼤的四分位数)、下四分位数(数据从⼩到⼤排列排在第25%位置的数字,即最⼩的四分位数)、中间的四分 位数即为中位数。四分位数可以很容易地识别异常值。箱线图就是根据四分位数做的图。 四分位数的计算: 下四分位数的位置: 计算n/4 如果结果为整数,则下四分位数位于n/4这个位置和下⼀个位置的中间,取这两个位置上数值的平均值 如果结果不为整数,则向上取整,所得结果为下四分位数的位置 上四分位数的位置: 计算3n/4, 如果结果为整数,则上四分位数位于3n/4这个位置和下⼀个位置的中间,取这两个位置上数值的平均值 如果结果不为整数,则向上取整,所得结果为上四分位数的位置 eg、3 3 6 7 7 10 10 11 13 30 n=11, 11/4=2.75,不为整,向上取整3,则下四分位数是第3个数,即6; 3*11/4=8.25,也不为整,向上取整9,则上四分位是第9个数,即11 箱线图可以⽤来⽐较不同组别的数据。箱线图除了上下四分位数,还有上界(除异常点以外的最⼤值)、下界(除异常点以外的最⼩值) 6、⽅差和标准差。⽅差是每个数据值与全体数据的平均数差的平⽅的平均数。标准差是⽅差开⽅。⽅差与标准差表⽰数据集波动的⼤⼩, ⽅差⼩,表⽰数据集⽐较集中,波动性⼩,⽅差⼤,表⽰数据集⽐较分散,波动性⼤。由于标准差只能⽤于统⼀体系内的数据⽐较,如果要 对不同体系的数据⽐较,就要引⼊标准分的概念。 σ2=1Ni=1N(Xi-μ)2 σ=σ2 7、标准分z:对数据进⾏标准化处理,⼜叫Z标准化,经过Z标准化处理后的数据符合正态分布(即均值为0,标准差为1)。标准分是对不 同数据集的数据进⾏⽐较的量,可⽤来表⽰数据值在所在数据集内的相对排名 。标准分的意义是每个数值距离平均值有多少个标准差。 有数据集x1,x2,x3,其平均值为μ,标准差为σ,则其标准分z为: z=x2-μσ 8、峰度:描述正态分布中曲线峰顶尖哨程度的指标。峰度系数>0,则两侧极端数据较少,⽐正太分布更⾼更瘦,呈尖哨峰分布;峰度系数 <0,则两侧极端数据较多,⽐正太分布更矮更胖,呈平阔峰分布。 9、度:以正态分布为标准描述数据对称性的指标。度系数=0,则分布对称;度系数>0,则频数分布的⾼峰向左偏移,长尾向延 伸,呈正偏态分布度系数<0,则频数分布的⾼峰向移,长尾向左延伸,呈负偏态分布。 还有⼀些其他的量,不仅在描述性统计分析中常见,在数据报告中也很常见,如 10、绝对数 11、相对数:倍数、成数、百分数 12、百分⽐ 13、百分点:1个百分点=1%,是指变动的幅度 14、频数:绝对数,是⼀组数据中个别数据重复出现的次数 15、频率:相对数,次数与总次数的⽐。 16、⽐例:相对数,总体中各部分占全部的⽐,如:男⽣的⽐例是30:50 17、⽐率:相对数,不同类别的⽐,如男⼥⽐率俄⽇3:2 18、倍数:相对数,⼀个数除以另⼀个数所得的商,如A/B=C,那么A是B的C倍。 19、番数:相对数,指原来数量的2的N次⽅,如翻⼀番,意

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lavi_qq_2910138025

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值