数据分布与变量分布

panjinbo1001

于 2023-05-26 11:32:36 发布

阅读量164

点赞数

分类专栏：数据可视化文章标签： python 算法大数据概率论

本文链接：https://blog.csdn.net/panjinbo1001/article/details/130882832

版权

数据可视化专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据分布的对称与高低
- 偏度
  - 定义：数据分布的偏斜程度
  - 标准：偏度大小和正负取决于分布偏移的方向及程度
    对称分布=0，左偏分布<0，右偏分布>0
  - Python 方法：pd.Series(np.random.randn(1000),name='normal').skew()
- 峰度
  - 定义：数据分布的高低程度
  - 标准：峰度大小及正负取决于分布相较标准正态分布的高低
    变量的分布相较标准正态分布更加集中，则峰度>0
    变量的分布相较标准正态分布更加分散，则峰度<0
  - Python 方法：pd.Series(np.random.randn(1000),name='normal').kurtosis()
变量的分布类型
- 定义和意义
  - 定义：对实际变量分布的概括和抽象
  - 意义：只要知道某个变量服从（根据人为判断）某个分布，就可以很快地了解变量在相应取值时的概率，并且结合相应的业务场景作出解释
    分布是从无数个变量频率得到的，对其统计特性有深入的分析
- 正态分布
  - 正态分布是关于均值左右对称的，呈钟形
  - 正态分布的均值和标准差具有代表性，只要知道其均值和标准差，这个变量的分布情况就可以完全呈现
  - 在正态分布中，均值=中位数=众数
  - 正态分布的标准差和曲线下的面积有一些比较好记忆的关系。变量距离均值两倍标准差内出现的概率为95%，两端余下部分均为2.5%
- 二项分布
  - 定义：在概率论和统计学中，二项分布是n个独立的成功/失败试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上，当n=1时，二项分布就是伯努利分布。
  - 期望：如果X~B(n, p)（也就是说，X是服从二项分布的随机变量），那么X的期望值为：E(X) = np
  - X的方差：D(X) = np(1-p)
  - 协方差：如果有两个服从二项分布的随机变量X和Y，我们可以求它们的协方差。利用协方差的定义，当n= 1时我们有：Cov(X, Y) = E(XY)-E(X)E(Y)
    E(XY)为当X和Y都等于1时的概率，而E(X)和E(Y)分别为X= 1和Y= 1的概率。
- 泊松分布
  - 公式：
  - 泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数。
  - 期望和方差：泊松分布的期望和方差均为λ
- 均匀分布
  - 定义：在概率论和统计学中，均匀分布也叫矩形分布，它是对称概率分布，在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值，通常缩写为U（a，b）。
变量的度量类型
- 分类型变量
  - 定义：取值的水平数量有限的就是分类型变量
  - 注意要点
    - 过多水平的名义变量需要进行水平数量的压缩，被称为“概化”
    - 变量的度量类型是统计学上的概念，和Python的基本数据类型（存储类型）是两码事
    - Python会把所有数值变量当作连续型变量来处理
  - 分类
    - 等级变量
      - 别名：有序分类型变量
      - 定义：是一种分类型变量，类别间有大小、高低、次序之分，如问卷调查中的“消费者满意度”等指标
      - 特点：变量值之间有等级关系，可以比较大小/高低，是有方向的
      - 统计量类型：频次、百分比、累计频次、累计百分比
    - 名义变量
      - 别名：无序分类型变量
      - 定义：包含类别信息的变量，并且类别建没有大小、高低、次序之分，如人口统计学中的“性别”“名族”等指标
      - 特点：不能比较大小、没有方向
      - 统计量类型：频次、百分比
- 连续型变量
  - 概念和术语
    - 定义1：在规定的范围内可以任意取值，如人口统计学中的“收入”指标，互联网领域的“网站流量”指标，宏观经济数据中心的GDP指标等
    - 定义2：数量无限的就是连续性变量
    - 特点：无限，连续
    - 统计量类型（主要）：集中趋势、离中趋势、偏度和峰度
    - 数据的集中水平：使用某个指标标识数据的集中趋势，常见的指标有平均数、中位数与众数
    - 平均数：用加总变量的取值除以变量的个数，反映数据的集中水平
    - 中位数/四分位数/百分位数：首先将数据从小到大排列，再选取中间位置的数字作为数据的集中水平，这个数字就是中位数。如四分之一水平与四分之三水平的位置，就是四分位数。百分位数类似
    - 众数：数据中出现次数最多的值，常见与分类型变量
    - 左偏分布：均值<中位数<众数
    - 对称分布：均值=中位数=众数
    - 右偏分布：均值>中位数>众数
    - 分箱：将连续型变量分段
  - 离散程度
    - 极差：变量的最大值与最小值之差， Python中使用pandas DataFrame 具体字段的max()-min()
    - 方差（Variance）：Python中使用pandas DataFrame 具体字段的var()
    - 标准差（Standard Deviation）: Python中使用pandas DataFrame 具体字段的std()
    - 平均绝对偏差（Mean Absolute Deviation）：