数据采集:互联网爬虫,外业采集,已有的第三方库数据、部分标准化结构数据,统计资料……
数据清洗:
RDBMS数据清洗
清洗的主要内容:
缺失:根据其它字段生成或表连接生成或根据数学模型计算
重复:去重,把冗余的数据清理
脏数据:文本里有不符合要求的字符需要剔除,如特殊符号(标点符号),空格,全角半角,乱码等
数据挖掘:从已有数据,用数学模型,计算出的结果,常见有:机器学习 深度学习 NLP等方法(贝叶斯分类,监督分类,非监督分类,聚类,统计方法,神经网络算法......)
数据质量评价
数据质量检查分属性与空间的检查
空间拓扑
点是否不在面内(一定空间范围内) 线是否存在自相交 、悬挂线、未及 面:是否存在自相交, 面与面之间的相交、 包含与被包含、 空隙等
属性:
完整性:数据清洗转换前后,信息不丢失。逻辑连接关系保持(表连接能连上),数据量出入不变,不存在缺失。
一致性:字段内容是否符合要求,数值范围,空间坐标范围,字符串内容等
准确性:存的数据是否存在错误,异常
及时性:时间间隔,更新周期是否符要求
对于RDBMS而言
字段是否存在以下问题:字段类型是否正确以及内容是否存在候选键/主键重复 ,非主属性字段是否有空值/缺失/空字符空格,异常,错误……(对应数据库字段约束即用户定义完整性)
表与表之间的关系,连接关系 (外键 参照完整性)
FME优化方法:
原则:以最少的步骤完成任务,尽可能地精简。
1 减少不必要的连接featuremerger,避免相同的转换器出现重复太多
2 优化逻辑
3 使用数据库SQLexecutor 语句执行,利用数据库处理能力