数据治理与数据清洗面试题

最新推荐文章于 2024-04-08 00:20:26 发布

Z.S.D

最新推荐文章于 2024-04-08 00:20:26 发布

阅读量1.3k

点赞数 1

文章标签：数据挖掘大数据学习

本文链接：https://blog.csdn.net/lrn521zsd/article/details/133933641

版权

数据治理

1.什么是数据治理？

我们都知道数据的质量直接影响着数据的价值，并且直接影响数据分析的结果以及我们以此做出的决策的质量。我们常说用数据说话，用数据支撑管理决策，但如果是低质量的数据，甚至存在错误的数据，必然会让我们“说假话”。而数据治理就是通过一系列方式提高数据的质量，发挥数据资产价值。

2.数据治理方法（流程）？

从技术实施角度看，数据治理包含理采存管用五个步骤：

1.理，即数据资源梳理，从业务的视角理清数据资源环境和数据资源清单，包含组织机构、业务事项、信息系统、以及数据库、网页、文件和API接口形式存在的数据资源，最终得到分门别类的数据资源清单。

2.采，即数据采集清洗，通过一些ETL工具，例如DataX，Kettle，ETL的过程就是将数据从来源端经过抽取、转换、加载到目的端，将散落和凌乱的数据集中存储起来。然后再通过数据清洗，提高数据的质量，保证数据分析结果的准确性。例如在Python中通常使用Numpy和Pandas数据分析库进行数据清洗操作。

3.存，也就是数据库，或者数据仓库的设计和存储。一般情况下，我们可以将数据分为基础数据、业务主题数据和分析数据。基础数据就是核心实体数据，例如智慧政务项目中人口、法人、电子证照等数据。主题数据按照业务划分，例如交管部门每日警情数据，现场违法数据等。分析数据则是基于业务主题数据综合分析得到的分析结果数据，例如个人财产信息、违法事故分析等。在一部分，我们通常使用Python的Numpy和Pandas库或者大数据框架，例如Spark SQL、Hive SQL对数据进行筛选、分组、过滤等操作。当然，如果是实时流处理场景，可以使用Flink框架。

4.管，也就是对数据资产进行元数据管理和质量管理，一方面是建立数据使用场景和数据源头之间的血缘关系，另一方面是保证数据的质量和数据平台的稳定性，可以使用Hadoop生态及相关分布式框架提升整体性能。

5.用，就是使用数据分析的结果数据，是让数据发挥价值，为业务赋能的重要过程。数据使用的场景和需求是多变的，比如使用BI产品，FIneBi，power BI 等依据结果数据制作报表，用于决策支持。或者使用库表、文件、API接口等方式实现数据共享交换，例如我在智慧政务项目中依靠应用层数据编写API接口，实现快速查询个人财产信息的业务需求。

数据清洗

1.缺失值

先确定每个字段的缺失比例和重要程度，对于不重要，对业务需求没有影响的字段，可以直接删除。对于不能删除的缺失项，就需要进行填充，以业务知识和经验推测缺失值，或者用同一字段的其他数据的计算结果，例如均值、中位数、众数等作为填充值，还可以使用其他字段的计算结果来进行填充，比如由身份证号码可以推断出年龄，出生年月日等信息。

2.重复值

对数据资产中重复出现的数据进行去重操作，比如在Pandas中使用drop_duplicates函数去重。

3.异常值

两种情况，格式异常，数据异常。比如时间类型的数据以文本格式保存不方便后续处理，可以使用to_datetime函数转换为时间类型。后者一般是数据不合理，或者出现不应有的字符的情况，比如200岁的年龄，或者中国人名字中出现其他符号，这时候就需要根据具体情况选择合适的处理方式，比如使用str函数或正则表达式对字符串进行处理，或者使用apply函数结合自定义函数进行处理。