数据的预处理
数据审核
数据审核—原始数据(raw data)
完整性审核
- 应调查的单位或个体是否有遗漏
- 所有的调查项目或变量是否填写齐全
准确性审核
- 数据是否真实反映实际情况,内容是否符合实际
- 数据是否有错误,计算是否正确等
数据审核—二手数据(second hand data)
适用性审核
- 弄清楚数据的来源、数据的口径以及有关的背景材料
- 确定数据是否符合自己分析研究的需要
时效性审核
- 尽可能使用最新的数据
确认是否有必要做进一步的加工整理
数据筛选(data filter)
当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选
数据筛选的内容
- 将某些不符合要求的数据或有明显错误的数据予以剔除
- 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除
数据排序 (data rank)
按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索
排序有助于对数据检查纠错,以及为重新归类或分组等提供依据