一、什么是描述统计分析
描述统计学简单来说就是将一系列复杂的数据,减少为几个能起到描述作用的数字。用这些有代表性的数字,来代表数据集的特征,描述数据集的整体情况。
二、常用的描述统计指标
1、平均值
平均值,表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。
平均值的缺点:对异常值不敏感。
2、四分位数
四分位数,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。
当数据集有异常值时,四分位数中的中位数比平均值更能反映数据集中趋势的真实情况。
可以利用四分位数可以画箱线图,箱线图有两个常见作用:1)对不同数据集进行比较;2)识别可能的异常值(异常值,是数据集中一个或多个非常大或非常小的值)。
3、标准差
标准差,反映的是数据波动大小(离散程度、变异性)的情况,是偏离平均值的幅度。标准差的单位跟数据集的单位是一样的。
标准差的缺点:如果两个数据集差别比较大,那么就无法比较,但变异系数可以弥补这一点。
4、标准分
标准分,表示某个数值距离平均值有多少个标准差
计算标准分:标准分=(数值-平均值)/标准差
三.熟悉数据集
1.熟悉表中字段
2.利用EXCEL函数,对表1中的字段‘购买数量’进行常用统计指标分析如下:
3.对数据集熟悉后,希望分析出以下问题
1)哪些品类商品销售比较好?可以从“商品一级类别”“商品二级类别”“购买数量”几个字段去分析。
2)商品销量是否有季节性的影响?可以从“商品一级类别”“商品二级类别”“购买数量”“购买时间”几个字段去分析。
3)不同年龄段的孩子消费的商品品类有什么特点?可以从“商品一级类别”“商品二级类别”“购买数量”“出生日期”几个字段去分析。
4)不同性别的孩子,对商品品类是否有偏好?可以从“商品一级类别”“商品二级类别”“购买数量”“性别”几个字段去分析。