将这些相互关联的分布式异构数据源集成在一起,能够让上层用户无视不同系统的数据差异,透明的方式访问这些数据,就是数据集成所要解决的问题。
数据集成包含了:ETL、主数据管理、数据质量监控、元数据管理、数据生命周期管理共五大功能模块。
ETL是数据抽取、转换和装载(Extract,Transformation,Loading)的英文简称,是数据仓库获取高质量数据的关键环节,是对分散在各业务系统中的现有数据进行提取、转换清洗和加载的过程,使这些数据成为商业智能系统需要的有用数据。ETL是数据集成的第一步,也是构建数据仓库最重要的步骤。
数据抽取指的是从不同的网络、不同的操作平台、不同的数据库和数据格式、不同的应用中抽取数据的过程。在这个过程中,首先需要结合业务需求确定抽取的字段,形成一张公共需求表头,并且每个省的数据库字段也应与这些需求字段形成-一映射关系。这样通过数据抽取所得到的数据都具有统一、规整的字段内容,为后续的数据转换和加载提供基础。
第一类:数据名称及格式的统一,即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等;针对问题4中的”厂商标识”字段,将取值统一为“华为、中兴、阿郎、诺西、爱立信”。这样就需要对A省的该字段取值“1,2,3,4,5”根据映射关系进行数据转换;而对于问题5中的”lu接口配置带宽”字段,则将单位统一为Mbps,这样在对B省数据进行处理时,需要对取值除以1000000进行匹配。
第二类:数据仓库中存在源数据库中可能不存在的数据,因此需要进行字段的组合、分割或计算。以运营商获取的用户上网详单为例,需要根据用户上网内容和流量类型确定用户使用的业务类型(流媒体、即时通信、下载、浏览等),生成相应字段。并对单个用户在单个小区的各类型业务流量、次数、时间进行汇总统计。
收益账单指标之重点维度
产品条线:公募、私募、理财产品、商业养老金
资产类别:货币现金、债券与固定收益、股票股权、另类投资及其他
时间:每日、近一月、近一年、近一周……