《商务与经济统计》笔记第三章

第三章:描述统计学:数值方法

3.1 位置的度量

3.1.1 平均数、中位数、众数、

样本平均数: x − = ∑ x i n \mathop x\limits^ - = \frac{{\sum {{x_{\rm{i}}}} }}{n} x=nxi

总体平均数: μ = ∑ x i N \mu = \frac{{\sum {{x_{\text{i}}}} }}{N} μ=Nxi

加权平均数: x ‾ = ∑ w i x i ∑ w i \overline x = \frac{{\sum {{w_i}{x_i}} }}{{\sum {{w_i}} }} x=wiwixi

几何平均数: x g ‾ = x 1 x 2 … x n n \overline {{x_g}} = \sqrt[n]{{{x_1}{x_2} \ldots {x_n}}} xg=nx1x2xn

中位数:按数据从小到大排序后,中间的数据。

众数:出现次数最多的数据

3.1.2 百分位数、四分位数

百分位数:对于包含n个观测值的数据集,第p百分位数讲数据分割为两部分:大约有p%的观测值比第p百分位数小;而大约有(100-p)%的观测值比第p百分位数大。令 L p {L_p} Lp表示第p百分位数的位置,则:

L p = p 100 ( n + 1 ) {L_p} = \frac{p}{{100}}\left( {n + 1} \right) Lp=100p(n+1)

一旦计算出其位置,就可一计算第p百分位数的信息。

例如:对于某个数据集有12个数据,排序后,位置10对应的值为4050,位置11对应的值是4130,计算该数据的第80百分位数。

解: L 80 = 80 100 ( 12 + 1 ) {L_{80}} = \frac{{80}}{{100}}\left( {12 + 1} \right) L80=10080(12+1)=10.4,代表第80百分位数是位置10和位置11数值之间部分的40%。

第80百分位数=4050+0.4(4130-4050)=4082

四分位数:

Q 1 {Q_1} Q1第一四分位数=第25百分位数
Q 2 {Q_2} Q2第二四分位数=第50百分位数
Q 3 {Q_3} Q3第三四分位数=第75百分位数

3.2 离散程度的度量

3.2.1 极差、四分位数间距、方差、标准差、标准差系数

极差:极差=最大值-最小值

四分位数间距:是第三四分位数Q3与第一四分位数Q1的差值。也就是说,四分位数间距是中间50%数据的极差。 I Q R = Q 3 − Q 1 IQR = {Q_3} - {Q_1} IQR=Q3Q1

方差:总体方差、样本方差

总体方差 σ 2 = ∑ ( x i − μ ) 2 N {\sigma ^2} = \frac{{\sum {{{\left( {{x_i} - \mu } \right)}^2}} }}{N} σ2=N(xiμ)2

样本方差 s 2 = ∑ ( x i − x ‾ ) 2 n − 1 {s^2} = \frac{{\sum {{{\left( {{x_i} - \overline x } \right)}^2}} }}{{n - 1}} s2=n1(xix)2

标准差:总体标准差、样本标准差

总体标准差 σ = σ 2 \sigma = \sqrt {{\sigma ^2}} σ=σ2

样本标准差 s = s 2 s = \sqrt {{s^2}} s=s2

标准差系数:(标准差\平均数*100)%

3.3 分布形态、相对位置的度量、异常值的检测

3.3.1 分布形态、Z-分数、切比雪夫定理、经验法则、异常值的检测

偏度:偏度 = n ( n − 1 ) ( n − 2 ) ∑ ( x i − x ‾ s ) 3 = \frac{n}{{\left( {n - 1} \right)\left( {n - 2} \right)}}{\sum {\left( {\frac{{{x_i} - \overline x }}{s}} \right)} ^3} =(n1)(n2)n(sxix)3

Z-分数 z i = x i − x ‾ s {z_i} = \frac{{{x_i} - \overline x }}{s} zi=sxix,其解释为, x i {{x_i}} xi与平均数 x ‾ {\overline x } x的距离是 z i {z_i} zi个标准差。

任何观测值的z-分数都被认为是对数据集中观测值相对位置的度量。因此,两个不同数据集的观测值具有相同的z分数,就可以说是他们具有相同的相对位置,他们与平均数的距离有相同个数的标准差。

切比雪夫定理:与平均数的距离在z个标准差之内的数据值所占的比例至少为 ( 1 − 1 z 2 ) \left( {1 - \frac{1}{{{z^2}}}} \right) (1z21),其中z是大于1的任意实数。

  1. 至少75%的数据值与平均数的距离在z=2个标准差之内
  2. 至少89%的数据值与平均数的距离在z=3个标准差之内
  3. 至少94%的数据值与平均数的距离在z=4个标准差之内

切比雪夫定理适用于任何数据集而不论其数据分布的形状。当某个数据集成正态分布或者钟形分布的时候,便有了经验法则

对于具有钟形分布的数据:
大约68%的数据值与平均数的距离在1个标准差之内;
大约95%的数据值与平均数的距离在2个标准差之内;
几乎所有数据值与平均数的距离在3个标准差之内;

异常值的检测

  1. z-分数可以用来检测异常值,建议把z-分数小于-3或者大于3的任何数值都视为异常值。
  2. 还可以以第一四分位数和第三四分位数以及四分位数间距为依据,首先计算下限和上限:
    下 限 = Q 1 − 1.5 ∗ I Q R 下限={Q_1} - 1.5*IQR =Q11.5IQR
    上 限 = Q 3 + 1.5 ∗ I Q R 上限={Q_3} +1.5*IQR =Q3+1.5IQR
    如果一个数值小于下限或者大于上限,则被视为异常值。

3.4 五数概括法、箱型图

3.4.1 五数概括法、箱型图

五数概括法

  • 最小值
  • 第一四分位数
  • 中位数
  • 第三四分位数
  • 最大值

箱型图:[空]

3.5 两变量间关系的度量

3.5.1 协方差

对于一个容量为n的样本,其观测值为 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x n , y n ) \left( {{x_1},{y_1}} \right),\left( {{x_2},{y_2}} \right), \cdots ,\left( {{x_n},{y_n}} \right) (x1,y1),(x2,y2),,(xn,yn),则:

样本协方差: s x y = ∑ ( x i − x ‾ ) ( y i − y ‾ ) n − 1 {s_{xy}} = \frac{{\sum {\left( {{x_i} - \overline x } \right)\left( {{y_i} - \overline y } \right)} }}{{n - 1}} sxy=n1(xix)(yiy)

总体协方差: σ x y = ∑ ( x i − μ x ) ( y i − μ y ) N {\sigma _{xy}} = \frac{{\sum {\left( {{x_i} - {\mu _x}} \right)\left( {{y_i} - {\mu _y}} \right)} }}{N} σxy=N(xiμx)(yiμy)

在这里插入图片描述

在这里插入图片描述

3.5.2 相关系数

皮尔逊积矩相关系数:样本数据:
r x y = s x y s x s y {r_{xy}} = \frac{{{s_{xy}}}}{{{s_x}{s_y}}} rxy=sxsysxy
其中: s x = ∑ ( x i − x ‾ ) 2 n − 1 {s_x} = \sqrt {\frac{{\sum {{{\left( {{x_i} - \overline x } \right)}^2}} }}{{n - 1}}} sx=n1(xix)2

皮尔逊积矩相关系数:总体数据:
ρ x y = σ x y σ x σ y {\rho _{xy}} = \frac{{{\sigma _{xy}}}}{{{\sigma _x}{\sigma _y}}} ρxy=σxσyσxy
其中: σ x = ∑ ( x i − μ x ) 2 N {\sigma _x} = \sqrt {\frac{{\sum {{{\left( {{x_i} - {\mu _x}} \right)}^2}} }}{N}} σx=N(xiμx)2

相关系数的值越接近于+1,表明同向线性关系越强;越接近于-1,表明反向线性关系越强;越接近于0,表明没有线性关系。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值