《商务与经济统计》笔记第三章

最新推荐文章于 2021-12-05 11:20:47 发布

三千炎焱

最新推荐文章于 2021-12-05 11:20:47 发布

阅读量770

点赞数

分类专栏：《商务与经济统计》第13版学习笔记文章标签：概率论

本文链接：https://blog.csdn.net/weixin_43001972/article/details/111632035

版权

《商务与经济统计》第13版学习笔记专栏收录该内容

7 篇文章 6 订阅

订阅专栏

《商务与经济统计》笔记第三章

第三章：描述统计学：数值方法

第三章：描述统计学：数值方法

3.1 位置的度量

3.1.1 平均数、中位数、众数、

样本平均数： $\mathop x\limits^ - = \frac{{\sum {{x_{\rm{i}}}} }}{n}$

总体平均数： $\mu = \frac{{\sum {{x_{\text{i}}}} }}{N}$

加权平均数： $\overline x = \frac{{\sum {{w_i}{x_i}} }}{{\sum {{w_i}} }}$

几何平均数： $\overline {{x_g}} = \sqrt[n]{{{x_1}{x_2} \ldots {x_n}}}$

中位数：按数据从小到大排序后，中间的数据。

众数：出现次数最多的数据

3.1.2 百分位数、四分位数

百分位数：对于包含n个观测值的数据集，第p百分位数讲数据分割为两部分：大约有p%的观测值比第p百分位数小；而大约有(100-p)%的观测值比第p百分位数大。令 ${L_p}$ 表示第p百分位数的位置，则：

${L_p} = \frac{p}{{100}}\left( {n + 1} \right)$ 。

一旦计算出其位置，就可一计算第p百分位数的信息。

例如：对于某个数据集有12个数据，排序后，位置10对应的值为4050，位置11对应的值是4130，计算该数据的第80百分位数。

解： ${L_{80}} = \frac{{80}}{{100}}\left( {12 + 1} \right)$ =10.4，代表第80百分位数是位置10和位置11数值之间部分的40%。

第80百分位数=4050+0.4（4130-4050）=4082

四分位数：

${Q_1}$ 第一四分位数=第25百分位数
${Q_2}$ 第二四分位数=第50百分位数
${Q_3}$ 第三四分位数=第75百分位数

3.2 离散程度的度量

3.2.1 极差、四分位数间距、方差、标准差、标准差系数

极差：极差=最大值-最小值

四分位数间距：是第三四分位数Q3与第一四分位数Q1的差值。也就是说，四分位数间距是中间50%数据的极差。 $IQR = {Q_3} - {Q_1}$

方差：总体方差、样本方差

总体方差： ${\sigma ^2} = \frac{{\sum {{{\left( {{x_i} - \mu } \right)}^2}} }}{N}$

样本方差： ${s^2} = \frac{{\sum {{{\left( {{x_i} - \overline x } \right)}^2}} }}{{n - 1}}$

标准差：总体标准差、样本标准差

总体标准差： $\sigma = \sqrt {{\sigma ^2}}$

样本标准差： $\sqrt {{s^2}}$

标准差系数：(标准差\平均数*100)%

3.3 分布形态、相对位置的度量、异常值的检测

3.3.1 分布形态、Z-分数、切比雪夫定理、经验法则、异常值的检测

偏度：偏度 $\frac{n}{{\left( {n - 1} \right)\left( {n - 2} \right)}}{\sum {\left( {\frac{{{x_i} - \overline x }}{s}} \right)} ^3}$

Z-分数： ${z_i} = \frac{{{x_i} - \overline x }}{s}$ ，其解释为， ${{x_i}}$ 与平均数 ${\overline x }$ 的距离是 ${z_i}$ 个标准差。

任何观测值的z-分数都被认为是对数据集中观测值相对位置的度量。因此，两个不同数据集的观测值具有相同的z分数，就可以说是他们具有相同的相对位置，他们与平均数的距离有相同个数的标准差。

切比雪夫定理：与平均数的距离在z个标准差之内的数据值所占的比例至少为 $\left( {1 - \frac{1}{{{z^2}}}} \right)$ ，其中z是大于1的任意实数。

至少75%的数据值与平均数的距离在z=2个标准差之内
至少89%的数据值与平均数的距离在z=3个标准差之内
至少94%的数据值与平均数的距离在z=4个标准差之内

切比雪夫定理适用于任何数据集而不论其数据分布的形状。当某个数据集成正态分布或者钟形分布的时候，便有了经验法则：

对于具有钟形分布的数据：
大约68%的数据值与平均数的距离在1个标准差之内；
大约95%的数据值与平均数的距离在2个标准差之内；
几乎所有数据值与平均数的距离在3个标准差之内；

异常值的检测：

z-分数可以用来检测异常值，建议把z-分数小于-3或者大于3的任何数值都视为异常值。
还可以以第一四分位数和第三四分位数以及四分位数间距为依据，首先计算下限和上限：
$下限={Q_1} - 1.5*IQR$
$上限={Q_3} +1.5*IQR$
如果一个数值小于下限或者大于上限，则被视为异常值。

3.4 五数概括法、箱型图

3.4.1 五数概括法、箱型图

五数概括法：

最小值
第一四分位数
中位数
第三四分位数
最大值

箱型图：[空]

3.5 两变量间关系的度量

3.5.1 协方差

对于一个容量为n的样本，其观测值为 $\left( {{x_1},{y_1}} \right),\left( {{x_2},{y_2}} \right), \cdots ,\left( {{x_n},{y_n}} \right)$ ，则：

样本协方差： ${s_{xy}} = \frac{{\sum {\left( {{x_i} - \overline x } \right)\left( {{y_i} - \overline y } \right)} }}{{n - 1}}$

总体协方差： ${\sigma _{xy}} = \frac{{\sum {\left( {{x_i} - {\mu _x}} \right)\left( {{y_i} - {\mu _y}} \right)} }}{N}$

在这里插入图片描述

3.5.2 相关系数

皮尔逊积矩相关系数：样本数据：
${r_{xy}} = \frac{{{s_{xy}}}}{{{s_x}{s_y}}}$
其中： ${s_x} = \sqrt {\frac{{\sum {{{\left( {{x_i} - \overline x } \right)}^2}} }}{{n - 1}}}$

皮尔逊积矩相关系数：总体数据：
${\rho _{xy}} = \frac{{{\sigma _{xy}}}}{{{\sigma _x}{\sigma _y}}}$
其中： ${\sigma _x} = \sqrt {\frac{{\sum {{{\left( {{x_i} - {\mu _x}} \right)}^2}} }}{N}}$

相关系数的值越接近于+1，表明同向线性关系越强；越接近于-1，表明反向线性关系越强；越接近于0，表明没有线性关系。

三千炎焱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《商务与经济统计》笔记第三章

《商务与经济统计》笔记第三章：描述统计学：数值方法3.1 位置的度量3.1.1 平均数、中位数、众数、3.1.2 百分位数、四分位数3.2 离散程度的度量3.2.1 极差、四分位数间距、方差、标准差、标准差系数3.3 分布形态、相对位置的度量、异常值的检测3.3.1 分布形态、Z-分数、切比雪夫定理、经验法则、异常值的检测3.4 五数概括法、箱型图3.4.1 五数概括法、箱型图3.5 两变量间关系的度量3.5.1 协方差3.5.2 相关系数第三章：描述统计学：数值方法3.1 位置的度量3.1.1
复制链接

扫一扫