描述性统计分析

数据分析之前,需先明确变量的度量类型。变量的度量类型主要分三种:名义、等级、连续;

1、名义变量:如饮料类型;

1.1 描述名义变量的分布:频数表、柱形图

2、等级变量:如饮料包装大小;

 

3、连续变量:饮料的体积(比例数据)、饮料的温度(间隔数据)

3.1 描述连续变量的分布 :直方图

        3.1.1 需要对变量进行分布探索,并了解以下情况:

    

        直方图:常用于了解数据的分布形状;

                      一般情况下,横轴为连续变量的分段进行等宽离散后的值,纵轴为频次;

        描述连续变量的分布形态:偏度与峰度

        3.1.2 常见连续分布

            

            

            这种类型的分布在取对数之后服从正态分布;因此,在精确度要求并不严格的统计分析中,经常在对偏态分布进行对数转换。

3.2 连续数据的位置

    3.2.1 中心的度量:均值:所有数值加总后除以数量

                                中位数:按大小排序后中间那个取值(50%分位数)

                                众数:出现频率最多的取值

 

              盒须图能够提供某变量分布以及异常的信息,其通过分位数来概括某变量的分布信息从而比较不同变量的分布。

              盒须图的基本元素:

              IQR:变量上下四分位数之间的数据,这个范围代表了数据中间50%的数据。

              1.5IQR:上下1.5IQR表示上下1.5倍IQR范围的数据,其能够提供中位数左右95%的置信区间的数据。

                             可以直观的从盒须图中看出超出95%置信区间范围的数据,即异常值。

              不同变量的盒须图比较时,可通过中位数位置来比较两变量数据的中位数差异状况。

             众数、中位数与平均数的关系:

        

    3.2.2 数据的离散程度:级差、四分位差、平均绝对偏差、方差和标准差

            级差(range)= 最大值 - 最小值

            四分位差(IQR)= 上分位数 - 下分位数

            

4、描述统计方法

       4.1 分类变量

        4.1.1 单因子频数,三种描述方法

        频次表

data.district.value_counts()

        垂直条形图

data.district.value_counts().plot(kind='bar')

        饼图

data.district.value_counts().plot(kind='pie')

              

          4.1.2 两分类变量:

        表分析

pd.crosstab(data.district,data.school)

        直方图

pd.crosstab(data.district,data.school).plot(kind='bar')

          

         4.2 连续变量

        4.2.1单连续变量

        连续变量统计量

data.price.agg(['mean','median','sum','std','skew'])

        直方图

data.price.hist(bins = 20)

          

         4.2.2 一分类变量 + 一连续变量

        分类汇总

data.price.groupby(data.district).sum()

        盒须图(box-plot):常用于多组数据分布的比较

data.boxplot(x='district',y='price',data=data)

          

        4.2.3 两分类变量 + 一连续变量

        汇总表

data.pivot_table(values='price',index='district',columns='school',aggfunc=np.mean)

             

        4.2.3 两连续变量

        散点图

data.plot.scatter(x='AREA',y='price')

             

            4.2.4 时间与两个连续变量

    

        4.3 关联性不同的图表

       

        4.4 图像展示步骤

            1、明确要表达的信息

            2、确定相对关系

            3、选择图表形式

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值