数据的预处理
数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等
数据审核
数据审核就是检查数据中是否有错误。**对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核。**完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等。准确性审核主要是检查数据是否有错误,是否存在异常值等。对于异常值要仔细鉴别:如果异常值属于记录时的错误,在分析之前应予以纠正;如果异常值是一个正确的值,则应予以保留。
**对于通过其他渠道取得的二手数据,应着重审核数据的适用性和时效性。**二手数据可以来自多种渠道,有些数据可能是为特定目的通过专门调查而取得的,或者是已经按特定目的的需要做了加工整理。对于使用者来说,首先应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,不能盲目生搬硬套。此外,还要对数据的时效性进行审核,对于时效性较强的问题,如果所取得的数据过于滞后,就可能失去研究的意义。
数据分组
数据分组是根据统计研究的需要,将原始数据按照某种标准分成不同的组别,分组后的数据称为分组数据。
数据分组的主要目的是观察数据的分布特征。
数据分组的方法有单变量分组和组距分组两种:
- 单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用
- 在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将一个区间的变量值作为一组。在组距分组中,一个组的最小值称为下限,一个组的最大值称为上限
组距分组的组数问题: 由于分组的目的之一是观察数据分布的特征,因此组数的多少应适中。组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这些都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,一组数据所分的组数不应少于5组且不多于15组。
采用组距分组时,需要遵循不重不漏的原则。不重是指一项数据只能分布在其中的某一组,不能在其他组中重复出现;不漏是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为了解决不重的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下组内——含下限不含上限。
对于离散变量,可以采用相邻两组组限间断的办法解决不重的问题,而对于连续变量,可以采用相邻两组组限重叠的方法,根据“上组限不在内”的规定解决不重的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度来确定
在组距分组中,如果全部数据中的最大值和最小值与其他数据差距悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采用“XX以下”及“XX以上”这样的开口组。开口组通常以相邻组的组距作为其组距。
组距掩盖了各组内的数据分布状况,为反映各组数据的一般水平,我们通常采用组中值作为该组数据的一个代表值。组中值是每一组中下限值与上限值中间的值
-
对于封口组,组中值=(下限值+上限值)/ 2
-
对于开口组:
以下开口组:组中值 = 上限 - 相邻组距 / 2
以上开口组:组中值 = 下限 + 相邻组距 / 2
使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。
数值型数据的图示
-
分组数据:直方图
-
未分组数据:茎叶图和箱线图
茎叶图是反映原始数据分布的图形;(直方图通常适用于大批量数据,茎叶图通常适用于小批量数据)
箱线图是根据一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较
-
时间序列数据:线图
如果数值型数据是在不同时间取得的,即时间序列数据,则可以绘制线图。线图主要用于反映现象随时间变化的特征
-
多变量数据的图示:散点图、气泡图、雷达图
散点图是用二维坐标展示两个变量之间关系的一种图形;
气泡图可用于展示三个变量之间的关系;
雷达图是显示多个变量的常用图示方法,也称为蜘蛛图。雷达图在显示或对比各变量的数值总和时十分有用,此外,利用雷达图可以研究多个样本之间的相似程度