1、应用架构
2、ETL抽取
抽取:通过JDBC接口或Http接口,从数据源抽取数据
转换:依据数据源与CMDB系统资源之间的属性映射,将N系统的资源转换为CMDB的资源。如监控的进程资源的ip属性为监控IP,CMDB的ip属性为管理IP,通过映射表的配置实现属性名称的转换。
清洗:系统对特定字段进行约束,如必填校验、数字类型校验、IP字段校验、枚举校验(如系统等级只 能为一般、重要、核心)、语义校验(如厂商为泰岳、神州泰岳的统一为神州泰岳)
装载:将资源数据存入数据仓库,同时生成必要的多维报表数据。
3、数据源分析
须从 数据源资源类型、资源属性、资源使用场景、资源变更频率取分析
4、数据源采集
须定义 接口、周期、唯一映射、规则、算法 ,或再包含数据规约、存储表结构、数据展示形式
5、数据源脏数据类型
范围有4方面,单个属性、一条记录内、记录之间、数据源之间。
空值:删除空值的记录、自动补全(平均值、最大最小等)、手工补全
不一致:如非法值:手机号10位,违反依赖:浙江南京,违反业务逻辑:出库时间小于入库时间。解决:在分析原因基础上,变换函数、汇总函数、格式化函数去清洗
重复记录:完全重复和疑似重复,解决:挑选关键属性、分配权重