数据问题
数据查找
- 直接用关键词在百度和谷歌上搜索——引入到某个数据源网站
- 在ResearchGate上搜索
- 北大数据平台
- 查相关文献的支撑材料(论文中所用到的数据)
- 英文文献可以用sci-hub免费下载(doi码)
数据清洗
缺失值清洗
- 确定缺失值范围
缺失率 / 重要性 | 高 | 低 |
---|---|---|
高 | 1.尝试从其他渠道补充数据 2.使用其他字段通过计算获取 3.去除字段,并在结果中表明 | 去除该字段 |
低 | 1.通过计算进行填充 2.通过经验或业务知识估计 | 不做处理或简单填充 |
- 去除不需要的字段
- 填充缺失内容,方法
- 以业务知识或经验推测填充缺失值
- 以同一指标的计算结果(均值、中位数、众数等)填充缺失值
- 以不同指标的计算结果填充(例如年龄字段缺失,但知道身份证号)
- 重新取数:如果数据重要性高但缺失率也高,则需要从其他渠道补充数据
格式清洗
- 时间、日期、数值、全半角等显示格式不一致
- 内容中有不该存在的字符
- 内容与字段不相符(例如,姓名填的性别)
逻辑错误清洗
- 去重
- 去除不合理值
- 修正矛盾内容
非需求数据清洗
把获取中的大量数据中,根据实际需求,去除掉不需要的数据
关联性验证
对不同渠道获取的相同数据做比对