数据整合构思

语义层构思

源数据加载后,需要通过界面选择,将自身字段与语义层表字段进行映射,才能使用此数据表

在界面上,由用户将语义层表的字段与源数据表选择映射关系,映射关系关系保存在语义层表中,例,A表字段身份证号,映射到语义层表中对应ID字段,B表字段identify,映射到语义层表中同样对应ID字段,Z表字段id,映射到语义层表中也对应ID字段,如此方可以实现将多种不同来源的数据进行整合


mapper构思

使用一张mapper表,如果需要应对多种情况,那么表变动必然很大,如此一来,无法手动完成,必须借助程序自动化

方案一,将所选择的数据源表的所有字段列出,由用户手动选择可能会用到的变量,然后生成一张mapper表,最后根据这张mapper表完成数据整合

方案二,使用多张mapper表的方式,mapper为自定义表,用户新建mapper表,命名此表主题如天气,从语义层中选定需要的变量,再从数据库中选择数据来源表。如此并表后,可以根据主题获取统一标准的变量数据。用户可以自定义各种不同主题的mapper表,自定义命名与内容

方案三,使用单张mapper表,灵活使用配置文件,由用户使用程序自动生成配置文件,并表时获取自动生成的配置文件进行并表

 

清洗设计构思

按照数据仓库的流程,将数据源读入数据库,然后按照主题,将相关数据发布到数据集市,再在数据集市中对数据进行处理获取需要的信息

读入数据后,根据主题做初步清洗,筛选出符合主题的变量

筛选出的变量,进行基础清洗,排除缺失值,异常值,类型转换,权重增减

选择算法后,根据不同的规则,将数据清洗成符合该算法要求的格式

 

 

转载于:https://www.cnblogs.com/Anroam/p/3303548.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值