达梦DM8数据库---数据中台系统学习开发记录(二)

#达梦DM8数据库—数据中台系统学习开发记录(二)

数据中台系统

一、数据治理思路分析

要求
数据治理模块负责制定治理规则,并按规则治理数据。
必做治理规则:
(1)“身份证号治理”,客户身份证必须符合规范。
(2)物流单规则,物流信息里客户必须在客户数据中。
(3)治理完成数据和异常数据分开存放,异常数据提供处理界面,并能重新治理。

1.身份证号治理

初步分析:属于数据预处理的一部分,要求数据身份证号符合规范,避免数据不一致

身份证编码规则如下:

(1)根据〖 中华人民共和国国家标准 GB11643-1999〗中有关公民身份号码的规定,公民身份号码是特征组合码,由十七位数字本体码一位数字校验码组成。
(2)顺序码(身份证第十五位到十七位)是县级 公安机关 所辖 派出所 的分配码,每个派出所分配码为10个连续号码,例如"000-009"或"060-069",
(3)其中单数为男性分配码,双数为女性分配码,如遇同年同月同日有两人以上时顺延第二、第三、第四、第五个分配码。如:005的就是个男性,而且和他同年月日生的男性至少有两个,他们的后四位是001和003
(4)分配顺序码中"999、998、997、996"四个顺序号分别为男女性百岁以上老人专用的特定编号。

2.物流单规则

初步分析:物流面单上的客户信息必须存在客户数据中,要去查询数据库

3.数据脱敏

4.补充要求

要可以处理脏数据和不规范数据
动态设置数据治理规则
能够产生质量数据,把不符合要求的数据 (异常数据) 输出到质量库中,给用户一个接口可以查询或者修正。

二、思路的实现工具

初步设想

  1. Spark
    通过刚学习的Spark工具,利用其丰富的操作算子进行处理,由于使用了Spark SQL和Spark Streaming能够很好的对数据进行操作处理,虽然在数据处理规模上不如MapReduce,但是利用Spark可以很好的满足对临时输入的新数据进行流处理的操作。
  2. MySQL或达梦DM8
    使用给定的数据,存储到MySQL中或者达梦数据库中。
  3. Docker
    利用Docker将所有所需依赖及环境都打包做一个镜像,上传到平台上以便于使用。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值