数据清洗笔记

最新推荐文章于 2021-09-12 15:11:08 发布

兰小莫

最新推荐文章于 2021-09-12 15:11:08 发布

阅读量400

点赞数 1

分类专栏： ETL FME

本文链接：https://blog.csdn.net/qq_14906811/article/details/89409393

版权

ETL 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

FME

2 篇文章 0 订阅

订阅专栏

数据采集:互联网爬虫，外业采集，已有的第三方库数据、部分标准化结构数据，统计资料……

数据清洗:
RDBMS数据清洗
清洗的主要内容：
缺失:根据其它字段生成或表连接生成或根据数学模型计算
重复:去重，把冗余的数据清理
脏数据:文本里有不符合要求的字符需要剔除，如特殊符号(标点符号)，空格，全角半角，乱码等
数据挖掘:从已有数据，用数学模型，计算出的结果，常见有：机器学习深度学习 NLP等方法(贝叶斯分类，监督分类，非监督分类，聚类，统计方法，神经网络算法......）

数据质量评价

数据质量检查分属性与空间的检查
空间拓扑
点是否不在面内（一定空间范围内）线是否存在自相交、悬挂线、未及面：是否存在自相交，面与面之间的相交、包含与被包含、空隙等
属性：
完整性:数据清洗转换前后，信息不丢失。逻辑连接关系保持(表连接能连上)，数据量出入不变，不存在缺失。
一致性:字段内容是否符合要求，数值范围，空间坐标范围，字符串内容等
准确性:存的数据是否存在错误，异常
及时性:时间间隔，更新周期是否符要求

对于RDBMS而言
字段是否存在以下问题：字段类型是否正确以及内容是否存在候选键/主键重复，非主属性字段是否有空值/缺失/空字符空格，异常，错误……(对应数据库字段约束即用户定义完整性)
表与表之间的关系，连接关系 (外键参照完整性)

FME优化方法:
原则:以最少的步骤完成任务，尽可能地精简。
1 减少不必要的连接featuremerger，避免相同的转换器出现重复太多
2 优化逻辑
3 使用数据库SQLexecutor 语句执行，利用数据库处理能力

兰小莫

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据清洗笔记

数据采集:互联网爬虫，外业采集，已有的第三方库数据、部分标准化结构数据，统计资料……数据清洗:RDBMS数据清洗清洗的主要内容：缺失:根据其它字段生成或表连接生成或根据数学模型计算重复:去重，把冗余的数据清理脏数据:文本里有不符合要求的字符需要剔除，如特殊符号(标点符号)，空格，全角半角，乱码等数据挖掘:从已有数据，用数学模型，计算出的结果，常见有：机器学习深度学习 NLP等方法...
复制链接

扫一扫