-
数据分布的对称与高低
-
偏度
- 定义:数据分布的偏斜程度
- 标准:偏度大小和正负取决于分布偏移的方向及程度
对称分布=0,左偏分布<0,右偏分布>0 - Python 方法:pd.Series(np.random.randn(1000),name='normal').skew()
-
峰度
- 定义:数据分布的高低程度
- 标准:峰度大小及正负取决于分布相较标准正态分布的高低
变量的分布相较标准正态分布更加集中,则峰度>0
变量的分布相较标准正态分布更加分散,则峰度<0 - Python 方法:pd.Series(np.random.randn(1000),name='normal').kurtosis()
-
-
变量的分布类型
-
定义和意义
- 定义:对实际变量分布的概括和抽象
- 意义:只要知道某个变量服从(根据人为判断)某个分布,就可以很快地了解变量在相应取值时的概率,并且结合相应的业务场景作出解释
分布是从无数个变量频率得到的,对其统计特性有深入的分析
-
正态分布
- 正态分布是关于均值左右对称的,呈钟形
- 正态分布的均值和标准差具有代表性,只要知道其均值和标准差,这个变量的分布情况就可以完全呈现
- 在正态分布中,均值=中位数=众数
- 正态分布的标准差和曲线下的面积有一些比较好记忆的关系。变量距离均值两倍标准差内出现的概率为95%,两端余下部分均为2.5%
-
二项分布
- 定义:在概率论和统计学中,二项分布是n个独立的成功/失败试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n=1时,二项分布就是伯努利分布。
- 期望:如果X~B(n, p)(也就是说,X是服从二项分布的随机变量),那么X的期望值为:E(X) = np
- X的方差:D(X) = np(1-p)
- 协方差:如果有两个服从二项分布的随机变量X和Y,我们可以求它们的协方差。利用协方差的定义,当n= 1时我们有:Cov(X, Y) = E(XY)-E(X)E(Y)
E(XY)为当X和Y都等于1时的概率,而E(X)和E(Y)分别为X= 1和Y= 1的概率。
-
泊松分布
- 公式:
- 泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
- 期望和方差:泊松分布的期望和方差均为λ
-
均匀分布
- 定义:在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
-
-
变量的度量类型
-
分类型变量
- 定义:取值的水平数量有限的就是分类型变量
- 注意要点
- 过多水平的名义变量需要进行水平数量的压缩,被称为“概化”
- 变量的度量类型是统计学上的概念,和Python的基本数据类型(存储类型)是两码事
- Python会把所有数值变量当作连续型变量来处理
- 分类
- 等级变量
- 别名:有序分类型变量
- 定义:是一种分类型变量,类别间有大小、高低、次序之分,如问卷调查中的“消费者满意度”等指标
- 特点:变量值之间有等级关系,可以比较大小/高低,是有方向的
- 统计量类型:频次、百分比、累计频次、累计百分比
- 名义变量
- 别名:无序分类型变量
- 定义:包含类别信息的变量,并且类别建没有大小、高低、次序之分,如人口统计学中的“性别”“名族”等指标
- 特点:不能比较大小、没有方向
- 统计量类型:频次、百分比
- 等级变量
-
连续型变量
- 概念和术语
- 定义1:在规定的范围内可以任意取值,如人口统计学中的“收入”指标,互联网领域的“网站流量”指标,宏观经济数据中心的GDP指标等
- 定义2:数量无限的就是连续性变量
- 特点:无限,连续
- 统计量类型(主要):集中趋势、离中趋势、偏度和峰度
- 数据的集中水平:使用某个指标标识数据的集中趋势,常见的指标有平均数、中位数与众数
- 平均数:用加总变量的取值除以变量的个数,反映数据的集中水平
- 中位数/四分位数/百分位数:首先将数据从小到大排列,再选取中间位置的数字作为数据的集中水平,这个数字就是中位数。如四分之一水平与四分之三水平的位置,就是四分位数。百分位数类似
- 众数:数据中出现次数最多的值,常见与分类型变量
- 左偏分布:均值<中位数<众数
- 对称分布:均值=中位数=众数
- 右偏分布:均值>中位数>众数
- 分箱:将连续型变量分段
- 离散程度
- 极差:变量的最大值与最小值之差, Python中使用pandas DataFrame 具体字段的max()-min()
- 方差(Variance):Python中使用pandas DataFrame 具体字段的var()
- 标准差(Standard Deviation): Python中使用pandas DataFrame 具体字段的std()
- 平均绝对偏差(Mean Absolute Deviation):
- 概念和术语
-
02-24
04-13
5808
11-06
“相关推荐”对你有帮助么?
-
非常没帮助
-
没帮助
-
一般
-
有帮助
-
非常有帮助
提交