数据清洗笔记

2 篇文章 0 订阅

数据采集:互联网爬虫,外业采集,已有的第三方库数据、部分标准化结构数据,统计资料……

数据清洗:
RDBMS数据清洗
清洗的主要内容:
缺失:根据其它字段生成或表连接生成或根据数学模型计算
重复:去重,把冗余的数据清理
脏数据:文本里有不符合要求的字符需要剔除,如特殊符号(标点符号),空格,全角半角,乱码等
数据挖掘:从已有数据,用数学模型,计算出的结果,常见有:机器学习 深度学习 NLP等方法(贝叶斯分类,监督分类,非监督分类,聚类,统计方法,神经网络算法......)

数据质量评价

数据质量检查分属性与空间的检查
空间拓扑
点是否不在面内(一定空间范围内) 线是否存在自相交 、悬挂线、未及  面:是否存在自相交, 面与面之间的相交、 包含与被包含、 空隙等
属性:
完整性:数据清洗转换前后,信息不丢失。逻辑连接关系保持(表连接能连上),数据量出入不变,不存在缺失。
一致性:字段内容是否符合要求,数值范围,空间坐标范围,字符串内容等
准确性:存的数据是否存在错误,异常
及时性:时间间隔,更新周期是否符要求

对于RDBMS而言
字段是否存在以下问题:字段类型是否正确以及内容是否存在候选键/主键重复 ,非主属性字段是否有空值/缺失/空字符空格,异常,错误……(对应数据库字段约束即用户定义完整性)
表与表之间的关系,连接关系 (外键 参照完整性)


FME优化方法:
原则:以最少的步骤完成任务,尽可能地精简。
1 减少不必要的连接featuremerger,避免相同的转换器出现重复太多
2 优化逻辑
3 使用数据库SQLexecutor 语句执行,利用数据库处理能力

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

兰小莫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值