数据采集与整理

1、数据的可分析度

我们需要判断这个数据的分析是否是有价值的,在可分析度方面,需要一些判断的维度,主要是企业数据量、数据复杂度还有数据颗粒度。

数据量比较大的、复杂度比较高的、颗粒度比较细的数据,就有比较高的分析和利用价值。衡量数据复杂度我们应该看剔除相关性之后的列数;数据的颗粒度越细越好,有了细颗粒度的数据,我们就可以自行组合成颗粒度比较“粗”的数据,就比如知道了全国各个区的GDP数据,我们就可以推算出市、省、全国的数据,但是反向的操作无法实现。

2、重复数据删除

第一种方法Excel中“删除重复项”

b41997a36b204ef2bb9a62bcaeeba026.png

选择判断是否重复的项 

63fd0d6d132140ddb544ab21f01c8341.png

 如果编号和成绩都相同、都重复了,那么就是重复值

ecb92e14f0b1431e8b7ec63699c3ba66.png

 第二种方法:高级筛选

06cef80c427c469889974e0fd844b082.png

 “选择不重复的记录”

a132691008774bbd9777a2061a65ae6b.png

可以看到在D1-E31显示了删除重复值后的结果

9eb0784f28cf4b7db18bd3b1b50ca964.png

第三种方法:使用SPSS

数据->标识重复个案

110505a1c2b34738b8c8cf61142989e5.png 设置如下

c84bf74e0b28486d944be2c21020bdb2.png

可以看到显示的结果如下,1=唯一个案或主个案,0=重复个案

f6c93ca07eb049e0924bf7d6de1cfb37.png

c751570f228a462caa16de08d6cc2e84.png

 3、删除空行

先进行排序

fbedc4ddd2dd475f8d707f562703ad90.png

可以删除空行了

991ddc47996c4f19a88ad4ba67ad2095.png

不打乱数据的排序对空行进行删除,使用辅助列的方法,添加次序,然后第一步按照编号进行排序,删除空行之后再按照次序进行排序就行

131d720744874b8fa2c82841fb4f77f0.png

4、缺失值的填充和分析

第一种方法使用手工填充,我们可以使用平均值进行填充,在Excel里面直接使用average函数就行

第二种方法使用SPSS“替换缺失值”进行填充

2d49560bac3c41039b4ef2ba207db519.png

有多种方法可以选择,通常选择序列缺失值

92d2f9cf4a524ef798ffa45ad8a5c411.png

 可以看到结果对比

b7abfcab10e540d8acba8c9529fec4ab.png

 缺失值分析

a6c2fbe8db4a42c4983caa96ea83cca6.png

 分析指标选择

a724b488f64d48e7aefbec71d3a21565.png

选择EM,点击下方EM...进入设置

 85770cad02aa448e944d165fab866fc6.png

 可以看到新数据集f

5e428aafb14b4591a377c2a74d1f0507.png

 5、SPSS处理大数据量

使用SPSS打开两个数据超过60万条的文件

7e7aec7945b64649a4a79ef474e19631.png

a5f5c7f91da74208b75e145c28bdec7d.png 在打开的第一个数据中点击合并文件->添加个案

19f787a10acf4ee09e31f49337454b98.png

 选择第二个数据集进行合并

711abeb8ae82401c811345a7cf4a5585.png

 添加要合并的变量

7e5c570c324e4c23a904b14bb4113311.png

 对合并之后的数据集进行分析,点击描述统计->描述

75ccb70938ee4d5ba9b06e3904dd4d77.png

 

点击变量尺寸

86696bf824ab45688c81cd7ab36fa4da.png

 我们可以看到结果N=1378832,已经超过Excel的最大最大容量。

 274ad186060e4d1a93b906712a10b2ca.png

 6、数据抽样

SPSS打开文件,在数据主标签中选择“选择个案”

bd997e9e07234807a805dd8342681a58.png

点击随机个案样本,也可以根据要求选择别的

 094cc1fa361c49338b2e823a84c073ea.png

 点击样本,选择要抽取的样本大小

a2dbcca72b0d4c8a9bdb19c23e039f89.png

在Excel中进行数据抽样可以使用函数randbetween,比如要500个随机数,即randbetween(1,500)。

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值