数据分布与变量分布

  • 数据分布的对称与高低

    • 偏度

      • 定义:数据分布的偏斜程度
      • 标准:偏度大小和正负取决于分布偏移的方向及程度
        对称分布=0,左偏分布<0,右偏分布>0
      • Python 方法:pd.Series(np.random.randn(1000),name='normal').skew()
    • 峰度

      • 定义:数据分布的高低程度
      • 标准:峰度大小及正负取决于分布相较标准正态分布的高低
        变量的分布相较标准正态分布更加集中,则峰度>0
        变量的分布相较标准正态分布更加分散,则峰度<0
      • Python 方法:pd.Series(np.random.randn(1000),name='normal').kurtosis()
  • 变量的分布类型

    • 定义和意义

      • 定义:对实际变量分布的概括和抽象
      • 意义:只要知道某个变量服从(根据人为判断)某个分布,就可以很快地了解变量在相应取值时的概率,并且结合相应的业务场景作出解释
        分布是从无数个变量频率得到的,对其统计特性有深入的分析
    • 正态分布

      • 正态分布是关于均值左右对称的,呈钟形
      • 正态分布的均值和标准差具有代表性,只要知道其均值和标准差,这个变量的分布情况就可以完全呈现
      • 在正态分布中,均值=中位数=众数
      • 正态分布的标准差和曲线下的面积有一些比较好记忆的关系。变量距离均值两倍标准差内出现的概率为95%,两端余下部分均为2.5%
    • 二项分布

      • 定义:在概率论和统计学中,二项分布是n个独立的成功/失败试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n=1时,二项分布就是伯努利分布。
      • 期望:如果X~B(n, p)(也就是说,X是服从二项分布的随机变量),那么X的期望值为:E(X) = np
      • X的方差:D(X) = np(1-p)
      • 协方差:如果有两个服从二项分布的随机变量X和Y,我们可以求它们的协方差。利用协方差的定义,当n= 1时我们有:Cov(X, Y) = E(XY)-E(X)E(Y)
        E(XY)为当X和Y都等于1时的概率,而E(X)和E(Y)分别为X= 1和Y= 1的概率。
    • 泊松分布

      • 公式:
      • 泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
      • 期望和方差:泊松分布的期望和方差均为λ
    • 均匀分布 

      • 定义:在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
  • 变量的度量类型

    • 分类型变量

      • 定义:取值的水平数量有限的就是分类型变量
      • 注意要点 
        • 过多水平的名义变量需要进行水平数量的压缩,被称为“概化”
        • 变量的度量类型是统计学上的概念,和Python的基本数据类型(存储类型)是两码事
        • Python会把所有数值变量当作连续型变量来处理
      • 分类
        • 等级变量
          • 别名:有序分类型变量
          • 定义:是一种分类型变量,类别间有大小、高低、次序之分,如问卷调查中的“消费者满意度”等指标
          • 特点:变量值之间有等级关系,可以比较大小/高低,是有方向的
          • 统计量类型:频次、百分比、累计频次、累计百分比
        • 名义变量
          • 别名:无序分类型变量
          • 定义:包含类别信息的变量,并且类别建没有大小、高低、次序之分,如人口统计学中的“性别”“名族”等指标
          • 特点:不能比较大小、没有方向
          • 统计量类型:频次、百分比
    • 连续型变量

      • 概念和术语
        • 定义1:在规定的范围内可以任意取值,如人口统计学中的“收入”指标,互联网领域的“网站流量”指标,宏观经济数据中心的GDP指标等
        • 定义2:数量无限的就是连续性变量
        • 特点:无限,连续
        • 统计量类型(主要):集中趋势、离中趋势、偏度和峰度
        • 数据的集中水平:使用某个指标标识数据的集中趋势,常见的指标有平均数、中位数与众数
        • 平均数:用加总变量的取值除以变量的个数,反映数据的集中水平
        • 中位数/四分位数/百分位数:首先将数据从小到大排列,再选取中间位置的数字作为数据的集中水平,这个数字就是中位数。如四分之一水平与四分之三水平的位置,就是四分位数。百分位数类似
        • 众数:数据中出现次数最多的值,常见与分类型变量
        • 左偏分布:均值<中位数<众数
        • 对称分布:均值=中位数=众数
        • 右偏分布:均值>中位数>众数
        • 分箱:将连续型变量分段
      • 离散程度
        • 极差:变量的最大值与最小值之差, Python中使用pandas DataFrame 具体字段的max()-min()
        • 方差(Variance):Python中使用pandas DataFrame 具体字段的var()

           

        • 标准差(Standard Deviation): Python中使用pandas DataFrame 具体字段的std()
        • 平均绝对偏差(Mean Absolute Deviation):
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Tableau可以通过多种方式帮助我们观察和分析数据分布。以下是一些常用的方法: 1. 直方图(Histogram):直方图是一种将数据按照区间进行分组并显示频率的图表。我们可以使用Tableau的直方图功能来快速生成直方图,并观察数据在不同区间上的分布情况。通过直方图,我们可以发现数据分布的整体形态、峰值和异常值等信息。 2. 箱线图(Box Plot):箱线图能够有效地展示数据的分布情况、异常值以及中位数、四分位数等统计指标。在Tableau中,我们可以使用箱线图来查看不同类别或群组的数据分布,以及可能存在的离群值。 3. 散点图(Scatter Plot):散点图通过在坐标系中绘制数据点来显示变量之间的关系。当我们希望了解两个变量之间的分布趋势时,可以使用Tableau的散点图功能。在散点图中,我们可以通过观察数据点的分布来推断变量之间的相关性、集中度以及可能的离群点。 4. 密度图(Density Plot):密度图用于显示数据分布的相对密集程度。Tableau提供了丰富的工具和功能,可以绘制多种类型的密度图。通过观察密度图,我们可以获得数据分布的峰度、集中度以及可能存在的异常情况。 总的来说,Tableau提供了多种可视化工具和图表类型,帮助我们观察数据分布。无论是直方图、箱线图、散点图还是密度图,这些功能都可以帮助我们更好地理解数据分布的特征,并提供洞察和分析的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值