三、数据采集与整理
1.数据采集的几条重要原则:足够复杂、足够细(粒度细)、有跨度(尽量找不同时间、地区的数据)、要有可行性
2.“逐步推进法”推测需要的数据(步骤:总量-结构-时间序列-颗粒度)
3.数据整理过程(耗时耗力,有三点要求-尽可能保证数据是对的、数据能用得上、数据的格式能够直接用于分析)
(1)重复、空行、空列数据删除(F5-定位)
(2)缺失值的填充和分析
(3)数据间逻辑的排查
—Excel中“删除重复项”:“数据”—“删除重复项”(此法可事先标注,或者将数据备份较好)
—高级筛选:“数据”—“高级”(最好事先备份)
—spss缺失值填充(2种):“转换”-‘替换缺失值’;“分析”-“缺失值分析”
(4)抽样
—spss:“数据”-“选择个案”-“随机个案样本”;
—Excel:2种-randbetween(起,始);“数据分析”-“抽样”
四、制表(上)
1.合并(数据重构:数据虽分布在不同的工作簿或不同的工作表中,但表头结构相同)
(1)跨工作表合并:新建工作表-“合并计算”
(2)跨工作簿合并:数据合并,实现数据联动(粘贴链接)
五、制表(下)
1.七个百分比:行总计、列总计、全部汇总、父行(列)的百分比、累计占比、同比、环比。
同比是指本期数据和去年同期的比值;环比是本期数据和上一期数据的变化情况。
2.分组
(1)文本分组
(2)等步长、不等步长的数据分组
(3)日期型分组
3.随意生成派生指标
六、数据扫描
1.Excel扫描
2.spss扫描:“分析”-“描述统计”-“描述”
3.其他指标:变异系数=标准差/平均值