1、什么是数仓实施
数仓实施是指在数据中台建设中,将各种数据源的数据进行整合、清洗、转换和加载,构建统一、可信、高效的数据仓库。数仓实施的目标是提供高质量、一致性和可用性的数据,以支持智慧城市的各项业务和决策需求。
2、标准规范设计
在数仓实施过程中,标准先行是非常重要的原则。标准可以包括数据模型标准、数据质量标准、数据集成标准、数据安全标准等。通过遵循标准,可以确保数据的一致性、可靠性和可持续性,提高数据的管理和利用效率。
标准先行的好处包括:
-
提高数据质量:通过应用标准,可以规范数据的采集、整理和存储过程,减少数据错误和不一致性,提高数据质量。
-
降低数据集成成本:标准化的数据集成方式可以减少重复劳动和重复开发,降低数据集成的成本和复杂度。
-
加快项目实施进度:通过事先定义好的标准,可以减少决策和沟通的时间,加快项目实施的进度。
-
提高数据共享和交流效率:标准化的数据格式和接口可以促进不同系统之间的数据共享和交流,提高数据利用效率。
2.1、数据采集汇聚规范
2.1.1、数据采集原则
2.1.1.1、统一性
数据的分类、编码、描述应选择通用性好、规范性强的方式进行编制,使其具有一定的统一性和兼容性,有利于数据的交换和共享。
2.1.1.2、真实性
所采集的数据应与信息源对象的实际情况完全吻合,不应进行随意修改、删除或增加,要求能够准确地反映信息源对象的真实情况,不能弄虚作假。
2.1.1.3、完整性
应明确数据采集的范围、内容及目标,采集的数据应能够完成采集项目规定内容,不应发生数据丢失或增加。
2.1.1.4、及时性
应关注数据采集信息主体的现实状况, 当主体信息发生变化时, 应对发生变化的信息数据重新采集,并对原有数据做更新处理。
2.1.1.5、选择性
应在保证数据完整性的前提下,兼顾与己有数据的交换和共享,选择项目采集的数据内容,避免数据重复或范围扩大。
2.1.1.1、保密性
对采集的各类信息应确定保密级别,采取相应的管理措施或技术手段,保证信息数据在采集、保持及交换传输过程中的数据安全。
2.1.2、数据分类分级
2.1.2.1、按数据类型分类
依据数据的结构化类型,将对象数据分为下列三类:
结构化数据:由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。在技术上,结构化数据能满足高速数据读写需求、数据备份需求、数据供需需求和数据容灾需求。
非结构化数据:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、图像和音频/视频信息等。在技术上,非结构化数据比结构化数据更难标准化和理解,所以存储、检索、发布和利用这类数据需要更加智能化的IT技术,例如:海量存储、智能检索、知识挖掘等。
半结构化数据:介于结构化数据和非结构化数据两者之间的数据,从逻辑上它是结构化数据,但是它的结构变化很大,不能够简单地用二维表来存储和管理。
2.1.2.2、按重点领域分类
依据工作中适用的应用领域,将对象数据分类为:
信用服务数据;
卫生健康数据;
社保就业数据;
公共安全数据;
城建住房数据;
交通运输数据;
教育文化数据;
科技创新数据;
资源能源数据;
生态环境数据;
工业农业数据;
商贸流通数据;
财税金融数据;
安全生产数据;
市场监管数据;
社会救助数据;
法律服务数据;
生活服务数据;
气象服务数据;
地理空间数据;
机构团体数据;
防疫复工数据;
商业服务数据;
其他领域数据。
2.1.2.3、数据来源分类
依据数据的来源,将对象数据分为下列四类:
- 公民个人数据:来源于个人生产生活中产生的数据。
- 法人及其他组织数据:来源于法人及其他组织生产运营产生的数据。
- 政府部门数据:来源于政府部门的政务数据。
- 其他数据:以上分类以外的数据。
2.1.2.4、按部门分类
依据数据管辖的部门(数源单位),可分为以下五级分类:
- 市级职能部门数据:
- 市政府办;
- 市发改委;
- 市经信局;
- ......;
2.1.2.5、按敏感程度分级
根据数据的敏感程度对数据进行分级。数据分级由数源单位完成。
备注:敏感程度指数据遭篡改、破坏、泄露或非法利用后对国家安全、社会秩序、公共利益和公民、法人、其它组织的合法权益的影响程度。
敏感程度建议分为四级:
敏感级别 | 敏感程度 | 判断标准 |
1级 | 公开数据 | 依法公开和披露的数据。 |
2级 | 一般敏感数据 | 不宜公开的数据,但在公民、法人和其它组织授权下可在一定范围内共享的数据。 |
3级 | 高度敏感数据 | 不能公开的数据,但在公民、法人和其它组织授权下可在小范围内共享的数据。 |
4级 | 极度敏感数据 | 涉及公民、法人和其他组织核心利益的数据,不得公开、不宜共享。 |
2.1.3、管理职责
数据资源提供方:
- 负责本单位的数据治理,保证推送到从数据库的数据符合质量规范要求和安全要求,并满足应用需求。
- 负责从数据库的部署和配置,保证数据主从一致。
- 负责接收本单位的数据质量报告,并修正问题数据。
- 负责按要求挂载数据资源。
数据采集部门:
- 负责数据采集和清洗加工,保证经过清洗和转换后的数据符合质量规范要求和安全要求。
- 负责提供从数据库服务器资源,并审核资源申请。
- 负责出具数据质量报告,并推送给对应的数源单位。
2.1.4、数据采集框架
-----------图片
2.1.5、数据采集方式
根据数据的类型、共享服务方式、存储状态等,主要定义三种数据采集方式:库表交换、文件交换和接口交换。
2.1.6、数据接入规范