1 基本概念
在图标题中考察正态分布和百分位数时,通常会涉及以下基本概念
算术平均值(arithmetic) = 平均值(average) = 均值(mean) - 容易受极值影响
加权平均数 = Σ(权重 * 数值) / Σ 权重 - 容易受极值影响
权重 = 出现次数 = 频率
中位数(median) - 不容易受极值影响
计算n个数字的中位数时,先将数字从小到大进行排序得到一个有序数列。
如果n是奇数,中位数就是有序数列最中间的那个数。
如果n是偶数,最中间便有两个数。中位数就是这两个数的平均数
指在这组数据中出现次数最多的那个数
四分位数和百分位数
用L指代最小的数,G指代最大的数M指代中位数。
一组数据中最常见的位置是四分位数和百分位数
可以将一组从小到大排列好的数据分成若干个大致相同的部分。
一组数据中有3个四分位数把这组数据分为4个部分,
有99个百分位这组数据分成100个大致相同的部分
和平均数、中位数一样,四分位数和百分位数可能不是该组数据中出现的值
3个4分位数依次为Q1,Q2,Q3
则Q2 = M
99个100分位数依次为P1,... P50,... P99
M=Q2=P50
四分位数距( interquartile range)
第一个四分位数和第三个四分位数之间的差值,即Q3 - Q1
极差(range) = max-min
标准差( standard deviation)
与极差和四分位距有所不同,标准差(standard deviation)与一组数据中每个数据都有联系。
数据偏离平均值越远,标准差就越大
数据越集中在平均值附近,标准差就越小
n个数据的标准差:
(1)计算n个值的平均值
n'
(2)计算每个数据与平均值的差
d1 = n1 - n',
d2 = n2 - n',
...
dn = n - n'
(3)标准差=((d1^2+ d2^2 + ...+dn^2) /n)^(0.5)
样本标准差(sample standard deviation) = 总体标准差(population standard deviation)
=((d1^2+ d2^2 + ...+dn^2) /(n-1))^(0.5)
频率直方图 / 柱状图
如果柱状图每个柱子的底宽为1,则