统计学基础1- 描述性统计

一. 统计学概述

统计学可以分为:

  1. 描述统计学
    使用特定的数字或图表来体现数据的集中程度和离散程度。例: 每次考试的平均分,最高分,各个分段的人数等,也是属于描述性统计学的范围。

  2. 推断统计学
    根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体合格率的一个估计。

统计学应用:
统计学的应用十分广泛,可以说,只要有数据,就有统计学的用武之地。目前比较热门的应用:经济学,医学,心理学等。

二. 集中趋势

例: 对于 1 2 3 4 5 ,你会使用哪个数字作为代表 ?
对于一组数据,如果只允许一个数字去代表这组数据,那么这个数字应该如何选择? - 选择数据的中心,即反应数据集中趋势的统计量。

  1. 均值:
    算数平均值,描述平均水平

  2. 中位数:
    将数据按照大小排列后位于正中间的数描述,描述中等水平

  3. 众数:
    数据中出现最多的数,描述一般水平

2.1 均值

计算公式:
image.png

例: 某次数学考试中,小组A与小组B的成员的成绩分别如下:
A: 70,85,62,98,92
B: 82,87,95,80,83
分别求出两组的平均分,并比较两组成绩。
组A: (70+85+62+98+92)/5 = 81.4
组B: (82+87+95+80+83)/5 = 85.4

组B的平均分比组A高,就是组B的总体成绩比组A高。

2.2 中位数

顾名思义,中位数就是将数据按大小顺序(从大到小或从小到大都可以)排列后处于中间位置的数。

例1: 58,32,46,92,73,88,23

  1. 先排序 23,32,46,58,73,88,92
  2. 找到处于中间位置数 58,有3个数比58大,有3个数比58小

例2:在例1的基础上, 多加一个数63,情况有何变化?

  1. 先排序 23,32,46,58,63,73,88,92
  2. 找到处于中间位置数 58 和 63 两个
  3. 若处于中间位置的数据有两个(也就是数据的总数是偶数的时候),中位数为中间两个数的算术平均值: (58+63)/2 = 60.5
    原始数据中,有4个数比60.5 大,有4个数比60.5小

2.3 众数

众数是数据中出现次数最多的数(所占比例最大的数)
一组数据中,可能会存在多个众数,也可能不存在众数。

例:
1 2 2 3 3 中的众数是 2 和 3
1 2 3 4 5 中没有众数

众数不仅适用于数值型数据,对于非数值型数据也同样适用
{苹果,苹果,香蕉,橙,橙,橙,桃}这一组数据,没什么均值中位数可言,但是存在一个众数-橙。
image.png

2.4 均值、中位数、众数比较

优点缺点
均值充分利用所有数据,适用性强容易受到极端值影响
中位数不受极端值影响缺乏敏感性
众数当数据具有明显的集中趋势时,代表性能好;不受极端值影响缺乏唯一性:可能有一个,有两个,也可能一个都没有

image.png

例:
两个公司的员工及薪资构成如下:
A: 经理1名,月薪100000;高级员工,15名,月薪10000;普通员工20名,月薪7500;
B: 经理1名,月薪20000;高级员工,15名,月薪11000;普通员工20名,月薪9000;

请比较两家公司的薪资水平。若只考虑薪资,你会选择哪一家公司?

  1. 均值:
    A (1000000 + 1510000 + 207500)/36 = 11111.1
    B (20000 + 2011000 + 159000)/36 = 10416.67

  2. 中位数:
    A 7500
    B 11000

  3. 众数:
    A 7500
    B 11000

若从均值去考虑,明显地A公司的平均月薪比B公司搞,但是A公司存在一个极端值,大大拉高了A公司的均值,这时只从均值考虑明显不太科学。
从中位数和众数来看,B公司的薪资水平比较高,若是一般的员工,选择B公司显得更加合理。

三. 离散程度与方差及标准差

3.1 离散程度的描述

比较下面两组数据:
A ---- 1 2 5 8 9
B ---- 3 4 5 6 7
两组数据的均值都是5,但是可以看出B组的数据与5更加接近。但是描述集中趋势的统计量不够,需要有描述数据的离散程度的统计量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HRlSwhhq-1650854072437)(https://upload-images.jianshu.io/upload_images/2638478-ec827cc12ce3ca93.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

极差: 最大值 - 最小值,简单地描述数据的范围大小
A: 9 - 1 = 8;
B: 7 - 4 = 3

同样的5个数,A的极差比B的极差要大,所以也比B的要分散

但是只用极差这个衡量离散程度也存在不足
如: A ---- 1 2 5 8 9 B ---- 1 4 5 6 9

3.2 方差

在统计学上,更常使用方差来描述数据的离散程度----数据离中心越远越离散
image.png

其中 X i X_i Xi表示数据集中第i个数据的值,μ表示数据集的均值

A---- 1 2 5 8 9
B---- 3 4 5 6 7
image.png

再对比数据A ---- 1 2 5 8 9 B----1 4 5 6 9的方差
image.png

image.png

样本方差和总体方差:
image.png

3.3 标准差

对于数据 1 2 5 8 9,前面求得这一组数据的方差是10。将10与原数据做比较,可以看出10比原数据都大,是否说明这一组数据十分离散呢??
但是方差与原数据的单位是不一样的,这样比较是无意义的。如果原数据的单位是m的话,那么方差的单位是 m 2 m^2 m2.

为了保持单位的一致性,我们引入一个新的统计量----标准差

标注差: σ = √ σ 2 σ = √σ^2 σ=σ2,有效地避免了因单位平方而引起的度量问题

A---- 1 2 5 8 9
B---- 3 4 5 6 7

σ A = √ 10 σ_A= √10 σA=10
σ B = √ 2 σ_B= √2 σB=2

与方差一样,标准差的值越大,表示数据越分散

四. 图形化表示

某班40个学生某次数学测试成绩如下:
63,84,91,53,69,81,61,69,91,78,75,81,80,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77

对于这一组数字,你能看出什么呢?
或许先算一算,均值是77.05,标准差是10.8414。
在对了这两个数字后,你对这组数字又有了怎样的认识,对于该班这次的数学检测成绩如何评价呢??

原始数据太杂乱无章,难以看出规律性;只依赖数字来描述集中趋势和离散程度,让人难以对数据产生直观地影响,这时需要用到图表!

4.1 直方图

image.png
image.png

4.2 箱线图

image.png

image.png

image.png

4.3 茎叶图

image.png

4.4 线图

image.png

4.5 柱形图

image.png

柱形图和直方图的对比:
image.png

4.6 饼图

image.png

参考:

  1. http://www.dataguru.cn/article-4362-1.html
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值