第3章数据的图表展示

最新推荐文章于 2024-09-11 14:23:26 发布

氧小氢

最新推荐文章于 2024-09-11 14:23:26 发布

阅读量744

点赞数

文章标签：统计学

本文链接：https://blog.csdn.net/weixin_42510210/article/details/110918056

版权

数据的预处理

数据的预处理是在对数据分类或分组之前所做的必要处理，内容包括数据的审核、筛选、排序等

数据审核

数据审核就是检查数据中是否有错误。**对于通过调查取得的原始数据，主要从完整性和准确性两个方面去审核。**完整性审核主要是检查应调查的单位或个体是否有遗漏，所有的调查项目是否填写齐全等。准确性审核主要是检查数据是否有错误，是否存在异常值等。对于异常值要仔细鉴别：如果异常值属于记录时的错误，在分析之前应予以纠正；如果异常值是一个正确的值，则应予以保留。

**对于通过其他渠道取得的二手数据，应着重审核数据的适用性和时效性。**二手数据可以来自多种渠道，有些数据可能是为特定目的通过专门调查而取得的，或者是已经按特定目的的需要做了加工整理。对于使用者来说，首先应弄清楚数据的来源、数据的口径以及有关的背景材料，以便确定这些数据是否符合分析研究的需要，不能盲目生搬硬套。此外，还要对数据的时效性进行审核，对于时效性较强的问题，如果所取得的数据过于滞后，就可能失去研究的意义。

数据分组

数据分组是根据统计研究的需要，将原始数据按照某种标准分成不同的组别，分组后的数据称为分组数据。

数据分组的主要目的是观察数据的分布特征。

数据分组的方法有单变量分组和组距分组两种：

单变量值分组是把每一个变量值作为一组，这种分组通常只适合离散变量，且在变量值较少的情况下使用
在连续变量或变量值较多的情况下，通常采用组距分组。它是将全部变量值依次划分为若干个区间，并将一个区间的变量值作为一组。在组距分组中，一个组的最小值称为下限，一个组的最大值称为上限

组距分组的组数问题： 由于分组的目的之一是观察数据分布的特征，因此组数的多少应适中。组数太少，数据的分布就会过于集中，组数太多，数据的分布就会过于分散，这些都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下，一组数据所分的组数不应少于5组且不多于15组。

采用组距分组时，需要遵循不重不漏的原则。不重是指一项数据只能分布在其中的某一组，不能在其他组中重复出现；不漏是指组别能够穷尽，即在所分的全部组别中每项数据都能分在其中的某一组，不能遗漏。

为了解决不重的问题，统计分组时习惯上规定“上组限不在内”，即当相邻两组的上下限重叠时，恰好等于某一组上限的变量值不算在本组内，而计算在下组内——含下限不含上限。

对于离散变量，可以采用相邻两组组限间断的办法解决不重的问题，而对于连续变量，可以采用相邻两组组限重叠的方法，根据“上组限不在内”的规定解决不重的问题，也可以对一个组的上限值采用小数点的形式，小数点的位数根据所要求的精度来确定

在组距分组中，如果全部数据中的最大值和最小值与其他数据差距悬殊，为避免出现空白组（即没有变量值的组）或个别极端值被漏掉，第一组和最后一组可以采用“XX以下”及“XX以上”这样的开口组。开口组通常以相邻组的组距作为其组距。

组距掩盖了各组内的数据分布状况，为反映各组数据的一般水平，我们通常采用组中值作为该组数据的一个代表值。组中值是每一组中下限值与上限值中间的值

对于封口组，组中值=（下限值+上限值）/ 2
对于开口组：

以下开口组：组中值 = 上限 - 相邻组距 / 2

以上开口组：组中值 = 下限 + 相邻组距 / 2

使用组中值代表一组数据时有一个必要的假定条件，即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定，用组中值作为一组数据的代表值会有一定的误差。

数值型数据的图示

分组数据：直方图
未分组数据：茎叶图和箱线图

茎叶图是反映原始数据分布的图形；（直方图通常适用于大批量数据，茎叶图通常适用于小批量数据）

箱线图是根据一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的，它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较
时间序列数据：线图

如果数值型数据是在不同时间取得的，即时间序列数据，则可以绘制线图。线图主要用于反映现象随时间变化的特征
多变量数据的图示：散点图、气泡图、雷达图

散点图是用二维坐标展示两个变量之间关系的一种图形；

气泡图可用于展示三个变量之间的关系；

雷达图是显示多个变量的常用图示方法，也称为蜘蛛图。雷达图在显示或对比各变量的数值总和时十分有用，此外，利用雷达图可以研究多个样本之间的相似程度