数据治理与数据清洗面试题

数据治理

1.什么是数据治理?

我们都知道数据的质量直接影响着数据的价值,并且直接影响数据分析的结果以及我们以此做出的决策的质量。我们常说用数据说话,用数据支撑管理决策,但如果是低质量的数据,甚至存在错误的数据,必然会让我们“说假话”。而数据治理就是通过一系列方式提高数据的质量,发挥数据资产价值。

2.数据治理方法(流程)?

从技术实施角度看,数据治理包含 理 采 存 管 用 五个步骤:

1.理,即数据资源梳理,从业务的视角理清数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统、以及数据库、网页、文件和API接口形式存在的数据资源,最终得到分门别类的数据资源清单。

2.采,即数据采集清洗,通过一些ETL工具,例如DataX,Kettle,ETL的过程就是将数据从来源端经过抽取、转换、加载到目的端,将散落和凌乱的数据集中存储起来。然后再通过数据清洗,提高数据的质量,保证数据分析结果的准确性。例如在Python中通常使用Numpy和Pandas数据分析库进行数据清洗操作。

3.存,也就是数据库,或者数据仓库的设计和存储。一般情况下,我们可以将数据分为基础数据、业务主题数据和分析数据。基础数据就是核心实体数据,例如智慧政务项目中人口、法人、电子证照等数据。主题数据按照业务划分,例如交管部门每日警情数据,现场违法数据等。分析数据则是基于业务主题数据综合分析得到的分析结果数据,例如个人财产信息、违法事故分析等。在一部分,我们通常使用Python的Numpy和Pandas库或者大数据框架,例如Spark SQL、Hive SQL对数据进行筛选、分组、过滤等操作。当然,如果是实时流处理场景,可以使用Flink框架。

4.管,也就是对数据资产进行元数据管理和质量管理,一方面是建立数据使用场景和数据源头之间的血缘关系,另一方面是保证数据的质量和数据平台的稳定性,可以使用Hadoop生态及相关分布式框架提升整体性能。

5.用,就是使用数据分析的结果数据,是让数据发挥价值,为业务赋能的重要过程。数据使用的场景和需求是多变的,比如使用BI产品,FIneBi,power BI 等依据结果数据制作报表,用于决策支持。或者使用库表、文件、API接口等方式实现数据共享交换,例如我在智慧政务项目中依靠应用层数据编写API接口,实现快速查询个人财产信息的业务需求。

数据清洗

1.缺失值

先确定每个字段的缺失比例和重要程度,对于不重要,对业务需求没有影响的字段,可以直接删除。对于不能删除的缺失项,就需要进行填充,以业务知识和经验推测缺失值,或者用同一字段的其他数据的计算结果,例如均值、中位数、众数等作为填充值,还可以使用其他字段的计算结果来进行填充,比如由身份证号码可以推断出年龄,出生年月日等信息。

2.重复值

对数据资产中重复出现的数据进行去重操作,比如在Pandas中使用drop_duplicates函数去重。

3.异常值

两种情况,格式异常,数据异常。比如时间类型的数据以文本格式保存不方便后续处理,可以使用to_datetime函数转换为时间类型。后者一般是数据不合理,或者出现不应有的字符的情况,比如200岁的年龄,或者中国人名字中出现其他符号,这时候就需要根据具体情况选择合适的处理方式,比如使用str函数或正则表达式对字符串进行处理,或者使用apply函数结合自定义函数进行处理。

我遇到过的数据异常情况?

薪资 单位不同 有千 有万 使用apply函数结合自定义函数实现格式的统一

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值