智慧城市数据中台交付-数仓实施(持续更新)

1、什么是数仓实施

数仓实施是指在数据中台建设中,将各种数据源的数据进行整合、清洗、转换和加载,构建统一、可信、高效的数据仓库。数仓实施的目标是提供高质量、一致性和可用性的数据,以支持智慧城市的各项业务和决策需求。

2、标准规范设计

在数仓实施过程中,标准先行是非常重要的原则。标准可以包括数据模型标准、数据质量标准、数据集成标准、数据安全标准等。通过遵循标准,可以确保数据的一致性、可靠性和可持续性,提高数据的管理和利用效率。

标准先行的好处包括:

  1. 提高数据质量:通过应用标准,可以规范数据的采集、整理和存储过程,减少数据错误和不一致性,提高数据质量。

  2. 降低数据集成成本:标准化的数据集成方式可以减少重复劳动和重复开发,降低数据集成的成本和复杂度。

  3. 加快项目实施进度:通过事先定义好的标准,可以减少决策和沟通的时间,加快项目实施的进度。

  4. 提高数据共享和交流效率:标准化的数据格式和接口可以促进不同系统之间的数据共享和交流,提高数据利用效率。

2.1、数据采集汇聚规范

2.1.1、数据采集原则

2.1.1.1、统一性

数据的分类、编码、描述应选择通用性好、规范性强的方式进行编制,使其具有一定的统一性和兼容性,有利于数据的交换和共享。

2.1.1.2、真实性

所采集的数据应与信息源对象的实际情况完全吻合,不应进行随意修改、删除或增加,要求能够准确地反映信息源对象的真实情况,不能弄虚作假。

2.1.1.3、完整性

应明确数据采集的范围、内容及目标,采集的数据应能够完成采集项目规定内容,不应发生数据丢失或增加。

2.1.1.4、及时性

应关注数据采集信息主体的现实状况, 当主体信息发生变化时, 应对发生变化的信息数据重新采集,并对原有数据做更新处理。

2.1.1.5、选择性

应在保证数据完整性的前提下,兼顾与己有数据的交换和共享,选择项目采集的数据内容,避免数据重复或范围扩大。

2.1.1.1、保密性

对采集的各类信息应确定保密级别,采取相应的管理措施或技术手段,保证信息数据在采集、保持及交换传输过程中的数据安全。

2.1.2、数据分类分级

2.1.2.1、按数据类型分类

依据数据的结构化类型,将对象数据分为下列三类:

结构化数据:由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。在技术上,结构化数据能满足高速数据读写需求、数据备份需求、数据供需需求和数据容灾需求。

非结构化数据:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、图像和音频/视频信息等。在技术上,非结构化数据比结构化数据更难标准化和理解,所以存储、检索、发布和利用这类数据需要更加智能化的IT技术,例如:海量存储、智能检索、知识挖掘等。

半结构化数据:介于结构化数据和非结构化数据两者之间的数据,从逻辑上它是结构化数据,但是它的结构变化很大,不能够简单地用二维表来存储和管理。

2.1.2.2、按重点领域分类

依据工作中适用的应用领域,将对象数据分类为:

信用服务数据;

卫生健康数据;

社保就业数据;

公共安全数据;

城建住房数据;

交通运输数据;

教育文化数据;

科技创新数据;

资源能源数据;

生态环境数据;

工业农业数据;

商贸流通数据;

财税金融数据;

安全生产数据;

市场监管数据;

社会救助数据;

法律服务数据;

生活服务数据;

气象服务数据;

地理空间数据;

机构团体数据;

防疫复工数据;

商业服务数据;

其他领域数据。

2.1.2.3、数据来源分类

依据数据的来源,将对象数据分为下列四类:

  • 公民个人数据:来源于个人生产生活中产生的数据。
  • 法人及其他组织数据:来源于法人及其他组织生产运营产生的数据。
  • 政府部门数据:来源于政府部门的政务数据。
  • 其他数据:以上分类以外的数据。
2.1.2.4、按部门分类

依据数据管辖的部门(数源单位),可分为以下五级分类:

  • 市级职能部门数据:
  1. 市政府办;
  2. 市发改委;
  3. 市经信局;
  4. ......;
2.1.2.5、按敏感程度分级

根据数据的敏感程度对数据进行分级。数据分级由数源单位完成。

备注:敏感程度指数据遭篡改、破坏、泄露或非法利用后对国家安全、社会秩序、公共利益和公民、法人、其它组织的合法权益的影响程度。

敏感程度建议分为四级:

敏感级别

敏感程度

判断标准

1级

公开数据

依法公开和披露的数据。

2级

一般敏感数据

不宜公开的数据,但在公民、法人和其它组织授权下可在一定范围内共享的数据。

3级

高度敏感数据

不能公开的数据,但在公民、法人和其它组织授权下可在小范围内共享的数据。

4级

极度敏感数据

涉及公民、法人和其他组织核心利益的数据,不得公开、不宜共享。        

2.1.3、管理职责

数据资源提供方

  • 负责本单位的数据治理,保证推送到从数据库的数据符合质量规范要求和安全要求,并满足应用需求。
  • 负责从数据库的部署和配置,保证数据主从一致。
  • 负责接收本单位的数据质量报告,并修正问题数据。
  • 负责按要求挂载数据资源。

数据采集部门

  • 负责数据采集和清洗加工,保证经过清洗和转换后的数据符合质量规范要求和安全要求。
  • 负责提供从数据库服务器资源,并审核资源申请。
  • 负责出具数据质量报告,并推送给对应的数源单位。

2.1.4、数据采集框架

-----------图片

2.1.5、数据采集方式

根据数据的类型、共享服务方式、存储状态等,主要定义三种数据采集方式:库表交换、文件交换和接口交换。

2.1.6、数据接入规范

 

2.2、数据清洗加工规范

2.3、数据仓库建设指南

2.4、数据脱敏工作指南

2.5、数据安全管理规范

2.6、数据服务能力评价指标

2.7、评估与考核机制

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值