统计学基础(二)

数据的整理与图示

分类数据:

一、频数与频数分布

1.频数与频数分布
2.列联表与交叉表
   --列联表:两个或两个以上变量交叉分类的频数分布表。
   --交叉表:二维的列联表。
3.比例,百分比,比率
   --比例:样本或总体各个部分的数据占全部数据纸币,通常反应样本或总体的构成结构。如男生占50%
   --百分比:比例*100
   --比率:样本或总体中不同类别数据之间的比值。如速度与时间之比,两个属性之间的比值

二、图示

条形图,帕累托(排序后的条形图),饼图,环形图(挖去圆心的饼图,每个环代表一个样本)。

顺序数据:

一、累计频数与累计频率

1.累计频数:将各有序类别或组的频数逐级累加起来得到的频数。向上累积和向下累积两种
2.累计频率和累计百分比:百分比累加

二、图示

根据累计频数或累计频率绘制累计频数分布图。

数值型数据:

一、数据分组

  单变量分组:适用于离散变量,变量值较少,如:如:工资分区间
  组距分组:将全部变量分成若干个区间,一个区间一个组,组的最小值为下限,组的最大值为上限。
  分组步骤:确定组数-->确定组距=(最大值-最小值)/组数-->根据分组整理成频数分布表
  组中值=(组合中上限值+组合中下限值)/2

二、图示

条形图,帕累托(排序后的条形图),饼图,环形图(挖去圆心的饼图,每个环代表一个样本);
直方图(用于分组数据);
茎叶图和箱线图(用于未分组数据);
线图(时间序列数据);
散点图和气泡图和雷达图(用于多变量数据);

注意:直方图和条形图的区别
直方图用面积表示各组频数的多少,矩形的高度表示各组的频数或频率,宽度表示组距。高度宽度均有意义。
条形图用条形的长度表示频数的多少,宽度是固定的。

箱线图

构成:最大值、最小值、上下四分位、中位数。连接上下四分位画出箱子。用于反应数据分布情况。

Q1下四分位:25%位置的数据。
Q2中位数:50%位置的数据。
Q3上四分位:75%位置的数据。
IQR四分位距=Q3上四分位-Q1下四分位

1.箱体包含了50%的数据,箱子的长度在一定程度上反映了数据的波动程度。箱子短:数据集中。箱子长:数据离散。
2.最大值和最小值:上下边缘。
3.异常值:异常值范围位于Q1-1.5IQR~Q3+1.5IQR。箱子外部的一些点。
4.中位数在箱子中间:数据大体上对称分布。例如:学生成绩高分低分分布均匀。
5.最大值最小值到箱子的距离差距过大:有极值,数据不对称。

偏态

平均数大于众数,称为正偏态(或右偏态);相反,则称为负偏态(或左偏态)。
左偏分布:平均值<中位数<众数  存在极小值,把平均数往左边拉动,众数和中位数是位置代表值不影响。
右偏分布:众数<中位数<平均数  存在极大值,把平均数往右边拉动,众数和中位数是位置代表值不影响。

 

示例:

从图中来看,西方经济学的成绩离散程度最小(箱子最短,经济数学和基础会计学的成绩离散程度最大(箱子长)。
英语和西方经济学的考试成绩较高(中位数高)。英语,市场营销的考试成绩大体上为对称分布(中位数在箱子的中间位置,最大值最小值与箱子的位置大致相等)。

 

 

散点图

两个变量之间的关系,一个变量横轴,一个变量纵轴。

如下:随着温度的升高,降雨量变大。

 

气泡图

三个变量之间的关系,一个变量横轴,一个变量纵轴,第三个变量气泡大小。

如下,随着温度和降雨量的升高,小麦产量的气泡也越来越大,产量在增长。

雷达图

多个不同变量在不同样本间的相似性。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值