项目编号:
大数据治理服务平台建设项目
实
施
方
案
项目编号:2023-XX-XX
编制单位:XX市XX中心
编制日期:二〇二三年四月
目录
招标方参与招标方客户单位其牵头的信息化项目,建立了良好的长期合作服务关系,对于客户单位的重点工作及主要方向有着最合理的把控。招标方已经成功中标多个招标方客户单位的数据类项目,需要更好的服务招标方客户单位的重点核心项目,建立围绕政务公共数据管理与运营的制度化、体系化、生态化的全方位支撑服务。为此,需要招募长期、稳定且技术能力领先的数据服务供应商来共同完成招标方客户单位的各种业务目标。
招标方客户单位的技术架构包含:大数据资源平台包含统一门户、数据共享交换子系统(含数据交换、服务管理等功能模块)、大数据支撑子系统(含数据湖、数据库)、数据治理子系统、数据质量管理子系统等。
其中:统一门户主要进行各子系统的集成、功能模块菜单级整合,实现了平台用户、权限统一管理、单点登录等;数据共享交换子系统(数据交换模块)实现数据交换引擎、统一调度引擎、任务管理、数据桥接等功能,以及对数据湖数据的存储管理、共享与交换;大数据支撑子系统(数据湖)汇聚“四大基础库”、“统建系统”、“各委办系统”、“各行政区系统”的经过初始治理的原始数据;数据治理子系统主要实现三清单动态管理、公共数据资源目录管理,以及元数据和数据标准管理;数据质量管理子系统实现完善的数据质量管理功能,包括数据质量规则制定、数据质量稽核、数据质量问题闭环管理;大数据支撑子系统(市级数据库)主要用于存放经过一系列清洗、转换、加载、治理步骤后的高质量的公共数据资源,为城市管理、公共服务等提供数据来源;数据共享交换子系统(服务管理模块)主要提供市级数据库中数据对外的服务发布与利用。
-
- 需求范围
服务子类 |
服务内容 |
描述 |
数据治理/分析建设 |
建设内容 |
(1)建设完善数据库:通过人口、法人、空间地理库数据源整合开发,并对接电子证照库。实现对人口、法人、空间地理信息、证照等的接入、整合、开发、利用。结合实际,构建公共主题库及专题库,为应用提供安全高质的专题数据服务。 (2)建立数据管理子系统:主要实现数据架构管理、数据关系管理、数据资产管理、数据标签管理、数据异常管理、数据分析管理、数据流程管理、流数据处理、知识图谱功能。 (3)扩展数据治理子系统:通过国家资源管理子系统实现资源申请、撤销、审核、查询、配置、目录管理、业务流程对接、监控模块对接等功能。 (4)建设大数据综合应用(一期):通过宏观经济、市场运行、民生幸福、城市立方体等专题应用的建设,构建大数据综合应用示范辅助领导决策,构建应用管理中心支撑数据应用,以为各部门提供优质的数据服务。 (5)建设数据开放子系统(一期):通过数据应用方管理、开放清单管理、数据开放管理、开放授权管理等构建全面的数据开放子系统,为数据应用方、数据管理方、外部第三方等提供数据注册、身份认证、订阅分发、开放数据追溯等功能。 (6)扩展平台集成门户:在大数据资源平台项目的基础上扩展功能。主要包括消息推送、数据推送、个人信息管理、系统管理等功能。 (7)建立数据开放门户:主要实现数据目录、数据接口、数据应用、数据图谱、地图数据、互动交流、数据开发者、辅助事项、个人管理等各项门户目录的建设。 |
数据治理和数据开放运营服务 |
数据采集对接服务 |
从政务服务业务梳理着手,开展公共数据梳理,形成公共数据“三清单”,并建立公共数据“三清单”的长效动态更新机制,依据“三清单”进行公共数据归集,夯实数据治理基础。抽取数据业务理解、数据理解、目录编制及数据协议适配、资源挂载、清洗等。 |
数据抽取运维 |
日常数据抽取任务维护,保障各信息系统数据及时准确地汇聚,对于问题抽取任务的进行处置调整 |
|
作业调度运维 |
日常数据加工、分发作业的调度管理,检查是否及时完成,对于中断作业进行处置; |
|
数据资源治理服务 |
各类基础库、主题库、专题库的数据资源治理工作,梳理对象与范围覆盖更广,内容更丰富,如数据资源梳理、数据分级分类、数据资产编目、数据标签管理、资产配置管理、一数多源梳理等 |
|
数据质量管理服务 |
对归集数据进行闭环质量管理工作,不断提升数据质量,为数据利用打下基础。闭环数据处理除需进行常态化的监管之外,还需进行整改督办跟踪 |
|
数据融合处理服务 |
开展基础数据融合应用工作,进行4大基础库升级改造,即人口、法人、空间地理、电子证照基础数据库;同时,依据“三清单”建设政务服务主题数据库,协助各牵头部门完成市场监管、公共信用、经济社会发展、社会治理、公共安全等主题库的建设 |
|
数据分析应用服务 |
推进数据分析应用,包括业务分析、数据可视化及数据产品开发 |
|
数据标注服务 |
对结构化数据、文本数据、音频数据、视频数据、流媒体等格式进行内容释义,并对内容进行分级分类管理; |
|
应用建模服务 |
根据不同的业务问题进行数学模型的建立,包括参数调整、测试集验证等 |
|
数据接口开发服务 |
提供数据服务能力,包括服务接口的封装及发布、各委办局自有接口代管、国家平台数据资源提供、数据开放等 |
|
数据开放支撑服务 |
促进各级政务部门和公共企事业单位建立常态化工作机制,制定年度数据开放计划,响应公众开放需求,依托开放平台依法有序推进公共信息资源开放。 |
|
数据运行监管服务 |
在数据资产运行过程中,保障资产的安全可靠贯穿始终。因此需要随着业务的不断拓展、技术的不断提升,持续制定与完善数据运营相关的工作规范与考核机制,保障数据资产在制度框架下有序运行 |
根据对招标要求的理解,建设业务需求主要包括如下几个方面:
(1)建设完善数据库:通过人口、法人、空间地理库数据源整合开发,并对接电子证照库。实现对人口、法人、空间地理信息、证照等的接入、整合、开发、利用。结合实际,构建公共主题库及专题库,为应用提供安全高质的专题数据服务。
(2)建立数据管理子系统:主要实现数据架构管理、数据关系管理、数据资产管理、数据标签管理、数据异常管理、数据分析管理、数据流程管理、流数据处理、知识图谱功能。
(3)扩展数据治理子系统:通过国家资源管理子系统实现资源申请、撤销、审核、查询、配置、目录管理、业务流程对接、监控模块对接等功能。
(4)建设大数据综合应用(一期):通过宏观经济、市场运行、民生幸福、城市立方体等专题应用的建设,构建大数据综合应用示范辅助领导决策,构建应用管理中心支撑数据应用,以为各部门提供优质的数据服务。
(5)建设数据开放子系统(一期):通过数据应用方管理、开放清单管理、数据开放管理、开放授权管理等构建全面的数据开放子系统,为数据应用方、数据管理方、外部第三方等提供数据注册、身份认证、订阅分发、开放数据追溯等功能。
(6)扩展平台集成门户:在大数据资源平台项目的基础上扩展功能。主要包括消息推送、数据推送、个人信息管理、系统管理等功能。
(7)建立数据开放门户:主要实现数据目录、数据接口、数据应用、数据图谱、地图数据、互动交流、数据开发者、辅助事项、个人管理等各项门户目录的建设。
本次项目建设范围覆盖招标方客户单位以及所有委办局。数据来源即为来自委办局、四大库、互联网及社会等业务数据。
本项目建设中公共数据管理涉及数据的汇聚、抽取、治理、交换、共享等全生命周期,在生命周期的各个阶段对数据的归属权、管理权有明确的界定,有利于各个项目参与单位能够做到权责明确、协调统一。
本项目建设将于平台采用数据湖+数据库的数据存储架构。数据湖与数据库依托于大数据支撑平台建设。
(1) 数据湖
数据湖是所有从外部数据源落地到招标方客户单位的统一数据存储空间。
数据湖基于政务云提供的云数据库和云存储服务进行搭建(通常包括关系型数据库、NoSQL数据库、列数据库、分布式文件存储等),主要存放政府部门业务数据库、未经加工的原始业务数据库,支持存储结构化、非结构化等多种类型的数据。
数据湖通过大数据资源平台,与各部门业务应用系统、区级各部门或区数据管理部门的前置节点进行交换。数据湖中的共享数据依据元数据进行编目,并建立动态更新的资源目录。
数据湖的数据存储规模极其庞大,需要支持存储扩展和横向、纵向迁移,直接用于分析的平均价值密度较低,通常需经过预处理、集成后,形成高质量公共数据资源。
(2)数据库
数据库,用于存放经过一系列清洗、转换、加载、治理步骤后的高质量的公共数据资源,其数据来源主要来自于数据湖。对于如一网通办等特殊应用,平台支持各部门政务应用系统与数据资源池的直接双向交互,无需通过数据湖进行中转,通过平台的调度引擎可进行交换链路的灵活设置。
数据库以面向不用数据应用、行业领域及主题进行划分(如:综合业务协同、公共基础库、公共主题库、扩展主题库等),并为业务应用和终端用户提供业务对象访问、数据集访问等数据类服务,支撑辅助决策、数据可视化、数据开放、数据挖掘分析等不同公共数据应用场景。
通过大数据资源平台提供的数据集成总线,对数据湖数据进行批量离线处理或实时处理,并将处理结果落地到数据资源池。数据资源池中的共享数据也需要依据元数据进行编目,并建立动态更新的资源目录。
数据库的数据存储规模极其庞大,需要采用合适的大数据平台对明细数据和汇总数据进行存储计算,计算结果可以使用分布式文件存储或关系型数据库,用于应用访问或直接展现。
建立全市数据管理与利用体系:本项目将依托S市数据共享交换子平台,持续汇入各市级委办、各区县、市级统建系统、四大库的数据,并新增接入互联网及社会数据,通过数据生命周期管理子系统提供公共数据管理、数据层次管理、数据关联及流向分析、统一数据地图等功能,整合法人库、人口库、空间地理库数据源,并通过数据处理子系统建立经济活动、公用事业、社会关系等公共主题库,提供各类专业业务领域主题库建设的数据支撑,通过数据服务总线对外提供利用。建设安全管理子系统,提供安全数据采集、敏感数据管理、安全监管中心等功能。另外,将建立宏观经济、市场运行、民生幸福、城市综合体等一系列专题应用,在数据利用层面,通过平台集成门户对政务部门提供数据利用支撑,通过数据开放子系统与数据开放门户对各类社会机构提供数据利用支撑;进一步推动与促进数据共享交换与利用的生态体系构建,持续基于公共数据进行业务创新。
通过本次项目建设的各子系统、整合的人口、法人、空间地理库数据源,新建的公共主题库、专题库等,结合S市数据共享交换子平台,将初步构建较为完整的S市大数据资源平台,支撑智慧政府的改革。
建设完善市级数据库:通过人口、法人、空间地理库数据源整合开发,并对接电子证照库。实现对人口、法人、空间地理信息、证照等的接入、整合、开发、利用。结合S市实际,构建公共主题库及专题库,为应用提供安全高质的专题数据服务。
-
-
-
-
- 公共基础库
- 人口库数据源整合
- 公共基础库
-
-
-
人口基础信息库提供身份核查和信息查询共享服务,通过输入公民姓名和身份证号码,便可查询居民身份号码和姓名匹配度以及死亡(注销)标识,也可提供公民性别、民族、出生日期、出生地等信息查询。
人口库数据源整合利用大数据资源平台已归集的人口相关数据,对人口库数据接入相关功能进行数据接入来源方面的功能整合开发。
通过对人口库数据源的全面梳理,对于原来由人口库向数据提供部门采集且已(将)接入大数据资源平台的数据,通过相关数据接入功能整合开发,改由大数据资源平台直接向人口库提供,不再需要相关数据提供部门重复提供。
-
-
-
-
-
- 法人库数据源整合
-
-
-
-
作为全市法人信息的基础数据库,法人库把原先碎片化存放的信息归集到法人名下,全面立体的展示法人相关信息。同时,法人库及S市法人信息共享与应用系统为全市其他平台和应用提供有力支撑。
法人库数据源整合利用大数据资源平台已归集的法人相关数据,对法人库数据接入相关功能进行数据接入来源方面的功能整合开发。
通过对法人库数据源的全面梳理,对于原来由法人库向数据提供部门采集且已(将)接入大数据资源平台的数据,通过相关数据接入功能整合开发,改由大数据资源平台直接向法人库提供,不再需要相关数据提供部门重复提供。
-
-
-
-
-
- 空间地理库数据源整合
-
-
-
-
空间地理库提供地图服务、影像服务、地名地址服务、三维服务与坐标转换等功能服务,持续为全市用户提供优质的地理信息服务。
空间地理库数据源整合,利用大数据资源平台已归集的空间地理相关数据,对空间地理库数据接入相关功能进行数据接入来源方面的功能整合开发。
通过对空间地理库数据源的全面梳理,对于原来由空间地理库向数据提供部门采集且已(将)接入大数据资源平台的数据,通过相关数据接入功能整合开发,改由大数据资源平台直接向空间地理库提供,不再需要相关数据提供部门重复提供。
立足于公共基础库,跨领域跨专题的数据提取并按主题进行整合汇聚,形成公共主题库,形成对专题的公共支撑。公共主题库数据来源不限于政府部门数据,包括事业单位、企业提供数据和互联网采集数据等。
本项目建设的公共主题库包括经济活动、公用事业、社会关系、人员密度等。
经济活动:建设经济活动公共主题库,实现构建与维护,并实现数据更新功能和主题聚合功能
公用事业:建设公用事业公共主题库,实现构建与维护,并实现数据更新功能和主题聚合功能
社会关系:建设社会关系公共主题库,实现构建与维护,并实现数据更新功能和主题聚合功能
人员密度:建设人员密度公共主题库,实现构建与维护,并实现数据更新功能和主题聚合功能
经济运行监测专题库:建设宏观经济专题专题库,实现专题库的规划、建库与维护,并提供数据更新功能
宏观经济预测专题库:建设宏观经济预测专题库,实现专题库的规划、建库与维护,并提供数据更新功能
宏观景气指数预测专题库:建设宏观景气指数预测专题库,实现专题库的规划、建库与维护,并提供数据更新功能
市场主体发展专题库:建设市场主体发展专题库,实现专题库的规划、建库与维护,并提供数据更新功能
人口和就业专题库:建设人口和就业专题库,实现专题库的规划、建库与维护,并提供数据更新功能
主体准入分析专题库:建设主体准入分析专题库,实现专题库的规划、建库与维护,并提供数据更新功能
产业结构调整专题库:建设产业结构调整专题库,实现专题库的规划、建库与维护,并提供数据更新功能
主体经营分析专题库:建设主体经营分析专题库,实现专题库的规划、建库与维护,并提供数据更新功能
大众创业分析专题库:建设大众创业分析专题库,实现专题库的规划、建库与维护,并提供数据更新功能
中小企业发展专题库:建设中小企业发展专题库,实现专题库的规划、建库与维护,并提供数据更新功能
电子商务发展专题库:建设电子商务发展专题库,实现专题库的规划、建库与维护,并提供数据更新功能
区域市场发展专题库:建设区域市场发展专题库,实现专题库的规划、建库与维护,并提供数据更新功能
人口迁移专题库:建设人口迁移专题库,实现专题库的规划、建库与维护,并提供数据更新功能
老龄化及养老专题库:建设老龄化及养老专题库,实现专题库的规划、建库与维护,并提供数据更新功能
流动人口专题库:建设流动人口专题库,实现专题库的规划、建库与维护,并提供数据更新功能
公共安全专题库:建设公共安全专题库,实现专题库的规划、建库与维护,并提供数据更新功能
政务服务能力专题库:建设政务服务能力专题库,实现专题库的规划、建库与维护,并提供数据更新功能
城市综合体专题-城市立方体模型专题库:建设城市立方体模型专题库,实现专题库的规划、建库与维护,并提供数据更新功能
城市综合体专题-社区画像专题库:建设社区画像专题库,实现专题库的规划、建库与维护,并提供数据更新功能
建立数据管理子系统:主要实现数据架构管理、数据关系管理、数据分级分类管理、数据异常管理、数据分析管理、数据流程管理、流数据处理、知识图谱、数据分层管理、数据运维管理、数据资产管理功能。
数据中心管理:对市级数据库进行物理中心或逻辑中心的管理功能开发
数据源管理:开发维护一个数据集存储服务所需数据库的链接和定位的功能
数据集管理:开发实现对数据交换业务及各部门发布数据集的下载、查阅、可视化展示及统计定制等的功能
数据物化管理:开发数据物化是在数据资源目录的数据持久化管理的功能
数据关联管理:开发针对两个或多个数据对象进行关系的定义与维护,关联关系可到字段级,并支持建立一对多和多对多的关系映射的功能
数据版本管理:开发针对单个数据对象在不同时期变更的结构进行定义与维护,可支持多版本比对和历史数据追溯等功能
基础标签管理:开发以列表形式和智能推荐形式将平台中设置的基础标签进行呈现列表形式是将所有的基础标签一一列出,并可以按照热度进行排序智能推荐形式是指根据最近时间段内的标签的访问频率、搜索频率等,以轮播的形式循环展现热门标签的功能
标签关系展现:开发通过标签将相关联的数据目录关联在动图中展现给用户,形成丰富数据盛筵的展示效果,做到通过一张图就可以将某一条数据的关联数据、以及数据之间的关系全部展示出来的功能
标签云:开发通过标签访问次数统计出热门标签,让平台运维人员了解哪些标签是访问频率高的、是符合用户访问习惯的,并结合用户的搜索记录,优化标签设置,使之更通用和人性化的功能
异常对接管理:开发可以对接数据交换总线、数据集成总线、数据服务总线系统中异常日志模块的功能。
异常问题列表:开发展示异常问题信息,按等级进行分类或主动推送,同时对异常问题进行归类整理,并定义规则进行选择性忽略或提醒的功能。
人工处理管理:开发人工处理管理是记录针对异常信息,人工处理所登记的台账信息,可按照异常分类进行分类授权,实现指定问题的指定人员处理的功能。
系统处理管理:开发统处理管理是针对异常信息集成的各子平台系统处理结果的收集,该类信息往往不需要人工干预的功能。
异常处理统计分析:开发按照异常分类、处理情况、时间、等级等维度进行分类统计,以图表的形式展现便于管理人员汇总分析的功能。
分析算法管理:开发集成并提供统计、分类、聚类、序列等分析工具集,提供调用接口的功能
预制模型管理:开发模型预制及自定义管理功能提供可选择的预制模型,可基于业务问题,来决定可以选择哪些可用的已有模型的功能
数据变换管理:开发提供将数据变换或统一成适合于数据分析挖掘的形式的功能
模型评估管理:开发模型质量的评估功能支持的评价指标有:平均误差率、判定系数R2、正确率、查全率、查准率
模型训练与优化管理:开发模型训练及优化功能,对评估中的欠拟合或者过拟合的模型进行优化的功能
分析可视化组件:开发对基础的各类可视化组件进行封装,支撑应用层模型展现的功能
工作流分类:开发系统支持自定义工作流的分类和维护的功能
可视化流程工具:开发可对数据管理相关业务流程进行可视化编排的功能
流程维护:开发工作流维护管理便捷,可以对工作流设置进行重新定义,工作流的修改或删除不影响原来已完成和正在流转的工作流的功能
流程监控:开发可以按照查询条件监控流程的流转情况,包括审批的状态和结果的功能
流程发布:开发流程需要发布后才能使用,发布前的修改对用户不产生影响的功能
流程导入导出:开发流程可采用xml文件进行导入导出备份,提供流程嵌套功能,支持多个、多级子流程嵌套的功能
实时采集:主要应对海量数据进行高性能的实时数据采集处理,以实时、高效、低延迟为核心驱动点,具备毫秒级数据触发能力,实现秒级单位时间窗口的数据统计分析能力。需要支持的数据源类型可以分为以下四类:
- 网络协议数据源,包括Socket、JMS、HTTP、HTTPS等常见类型的网络协议。
- 本/异地文件数据源,包括目录扫描、文本文件,FTP,SDTP等数据。
- 分布式文件系统数据源,包括HDFS,HBase,Hive等数据。
- 关系型数据库数据源,包括DB2,Teradata,vertica等数据。
- 支持物联网网关采集:将物联网数据从物联网网关接入,提供协议适配和标准化处理,以及满足海量物联网数据的入湖。
来自多种数据源的实时信息,因为其时效性高,数据的有效期短暂,需要实时提取和分析来自各种分布式系统的信息,并分发到不同的应用中进行处理。同时,系统必须高效、可靠、可管理、可监控并且具有一定的对外开放能力。
流数据引擎:开发提供数据融合,统计,分析的高速处理能力,对于实时性要求较高的数据计算提供支撑的功能
流数据计算模型管理:开发提供对已设计完成的数据计算模型进行申请,注册,提交,执行,监控的统一管理的功能
流数据计算公共模型开发:开发提供对于场景需求较多的数据模型可开发公共模型的功能,公共模型可以供其他用户调用,可重复使用的功能
流数据计算结果接口开发:开发提供对流数据计算结果接口开发功能和计算结果数据可通过接口形式供可视化调用或其他应用的功能
流数据计算模型查询:开发提供流数据计算模型查询功能,通过对流数据计算模型发布可以是其他用户查看计算模型逻辑,进行模型再利用,减少其他用户开发工作量的功能。
支持流媒体采集及转发管理:针对音频、视频等流媒体提供数据采集功能,同时配套流媒体数据存储和快速检索功能,同时需要采集对应流媒体设备的系统参数、通道参数、网络参数、外设设备参数、以及外设设备的地理位置等。
知识图谱用节点和关系所组成的图谱,为真实世界各个场景进行直观地建模,通过不同知识的关联性形成一个网状的知识结构,即机器所能理解的图谱,后续通过机器学习技术对知识图谱结果持续优化。
“知识图谱图计算服务=图存储 + 图计算引擎”,具有复杂关系的知识图谱以图数据库的方式进行存储和运算,大大提高了基于复杂关系进行分析和推理的效率。
图数据库更适合多对多关系、高价值的关系、基于关系的大规模和低延时数据的、方便关系扩展类的应用。同时需要提供图数据库二次开发:开发提供二级索引,全文检索、模糊检索等能力,开源标准图交互式查询语言接口,支持点对点关系信息的功能。
数据层级模型设计:开发数据层次设计功能模块,提供数据层次设计管理功能。
数据层级模型算法开发:数据层次模型算法功能模块的开发,提供数据层次模型算法管理功能。
数据层级库表建立:数据各层级数据库库表创建功能开发。
数据层级管理功能开发:对接管理功能开发,支持对接各子系统,实现数据分层管理功能。
数据层级元数据管理开发:开发元数据管理功能,提供元数据定义、采集、管理等功能。
数据层级分析算法功能开发:数据分层分析算法管理的功能开发。
监控运维:监控运维为数据开发者和维护者提供一站式的数据运维管控能力,可自主管理作业的部署、作业优先级、以及生产监控运维平台提供数据监控运维、任务运行情况监控、异常情况告警、日常运维数据统计等功能。
运维概览:运维概览主要用来展示调度任务的指标数据情况,目前包括任务完成情况、任务运行情况、任务执行时长排行、调度任务数量趋势、近一月出错排行、任务类型分布、30天基线破线次数排行。
运维任务:可视化展示调度任务DAG图,方便数据运维管理。
1) 提供任务运行状态监控告警
2) 提供单任务重跑、多任务重跑、kill、置成功、暂停等操作
3) 提供列表和DAG两种模式
4) 实现针对周期运行、测试运行、手动运行任务查看任务运行状态
5) 实现针对任务进行重跑、停止、查看运行日志、查看节点代码、查看节点属性。
监控告警:监控告警是调度任务的监控保障系统,当任务出现错误时,系统会通过预定义的方式告知任务失败,提供按照自定义规则来配置告警规则,及时调整任务产出,保障产出数据的及时性和可用性。
实时分析:实时分析主要面向数据分析师开放的功能,依托于实时分析引擎,提供方便快捷的数据查询和结果分析。
统一流程管理:面向不同用户提供不同监控视角的统一数据地图功能开发。
数据运维定制化开发:按照大数据资源平台的整体功能要求,提供数据运维可扩展的定制化功能。
平台运维定制化开发:按照大数据资源平台的整体功能要求,提供平台运维可扩展的定制化功能。
数据资产:资产管理主要是针对数据资产类目编制的过程梳理、明确职责等内容,同时也可以对数据表的元数据信息进行有效管理
资产总览:资产总览从数据规模、类目分布、热门访问等多个角度,对数据资源平台上的数据资产状况进行全景式展现。
资产目录:资产目录是对平台元数据的有序组织,是记录数据体系的保障数据类目是目录信息与服务、保障与支撑所组成的一个整体针对资产的合理组织,需要对资产进行对应分类,如部门类目、主题类目、行业类目等,可对该类目下资产数据进行搜索、展现以及权限申请。
资产报告:针对整体平台上的对应数据,提供定周期了解其对应资产情况,对总体资产情况进行分析。
资产地图:数据地图面向数据开发者,汇聚用户所有数据信息,通过元数据信息收集、数据血缘探查、数据权限申请授权等手段,帮助数据资源平台完成数据信息的收集和管理,解决数据资源平台数据开发者有哪些数据可用、到哪里可以找到数据的难题,并且提升数据资源的利用率。
扩展数据治理子系统:通过国家资源管理子系统实现资源申请、撤销、审核、查询、配置、目录管理、业务流程对接、监控模块对接等功能。
国家资源申请模块:开发资源申请功能,供资源需求方进行资源申请管理
资源撤销模块:开发资源撤销功能,供资源提供方进行资源撤销管理
资源审核模块:开发资源审核功能,供主管部门进行资源申请的审核管理
查询模块:查询已上线的所有资源及已发布的资源管理功能开发
消息管理模块:查看申请审核消息、待办消息、预警消息的消息管理功能开发
配置管理模块:配置管理功能开发,提供配置库表、文件资源申请审核、服务接口申请审核等功能
应用及事项管理模块:应用及事项管理功能开发,提供服务事项管理、政务事项管理等功能
使用单位对接模块:将本区数据共享交换平台使用单位信息注册到市数据共享交换平台的功能开发
目录对接模块:目录对接功能开发,提供下发目录接口秘钥、更新授权秘钥、目录分类获取、目录分类注册、目录分类变更、目录分类撤销管理等功能
资源对接模块:资源对接功能开发,提供库表资源对接发布、库表资源对接订阅、库表资源对接变更、库表资源对接撤销管理等功能
业务流程对接模块:业务流程对接功能开发,提供市数据共享交换平台对接管理功能
通知管理模块:通知管理功能开发,提供通知下发管理等功能
对接监控模块:监控目录及资源对接运行情况的功能开发
根据宏观经济、市场运行、民生幸福、城市立方体等专题应用的建设的要求,构建大数据综合应用示范辅助领导决策。
建立事件服务功能,主要实现事件规则定义、事件管理功能。
规则定义:事件规则定义提供简单事件的定义、复杂事件的组合规则定义,通过过滤、聚合和关联识别事件。
事件采集:时间采集提供事件采集的适配接口和信息转换,支持实时接收各系统的事件信息,完成信息的标准化处理。
事件处理:事件处理提供多事件并发处理的进程管理,对事件数据流进行大任务高并发的处理。
事件管理:开发事件管理功能,实现复杂事件的事件列表查看、事件处理等功能。
事件分发:事件分发是将事件下发给事件的订阅者,用于事件驱动型的业务触发。
在数据服务和事件服务的双重支撑下,构建应用管理中心支撑数据应用,为各部门提供优质的数据服务。
经济运行监测:开发包括GDP运行态势、工业增加值趋势、投资及消费趋势、对外贸易进出口运行态势、价格水平运行态势、金融运行态势的经济运行监测专题分析展示功能
宏观经济预测:开发包括GDP增速预测、工业增加值增速预测、M2增速预测,CPI预测的宏观经济预测专题分析展示功能
宏观景气指数预测:开发包括宏观预警指数、宏观一致指数、宏观先行指数、宏观滞后指数的宏观景气指数预测专题分析展示功能
市场主体发展:开发包括市场主体数量分析、区域活力分析、行业活力分析的市场主体发展专题分析展示功能
人口和就业:开发包括全市及各区人口情况、就业情况、人力资源情况的人口和就业专题分析展示功能
主体准入分析:开发包括主体市场准入分析、主体市场退出分析、主体变迁分析的主体准入专题分析展示功能
产业结构调整:开发包括产业结构分布、产业结构调整分析的产业结构调整专题分析展示功能
主体经营分析:开发包括主体营收分析、主体纳税分析、就业规模分析的主体经营专题分析展示功能
大众创业分析:开发包括创业密度、创业热点行业分布、创业类型、创业年龄分布、创业者学历分布、创业生存周期、创业发展、创业与就业的大众创业专题分析展示功能
中小企业发展:开发包括对中小企业主体数量、分布区域、分布行业、生命周期情况分析的中小企业发展专题分析展示功能
电子商务发展:开发包括电子商务平台、电子商务经营者、电子商务交易、电子商务维权的电子商务发展专题分析展示功能
区域市场发展:开发包括产业数量分析、市场主体排名的区域市场发展专题分析展示功能
人口大数据首页:开发包括区域人口密度分布、人口增长趋势、老龄化趋势、不同年龄阶段的性别比、流动人口民族构成的人口大数据首页分析展示功能
人口迁移:开发包括外省市迁入本市的人口分布情况、职业特征、年龄特征、学历特征、迁移趋势特征的人口迁移专题分析展示功能
老龄化及养老:开发包括老龄化发展趋势、老年配套设施分布及完善情况、老年人疾病、养老方式、老年消费、老年需求的老龄化及养老专题分析展示功能
流动人口:开发包括流动人口的聚集地分布、流动人口来源地、流动人口转化为常驻人口的比例趋势、流动人口的民族构成、子女入学率、犯罪率、犯罪类型的流动人口专题分析展示功能
公共安全:开发包括刑事犯罪、交通违章的公共安全专题分析展示功能
食品安全:开发包括食品生产、食品流通、餐饮服务、食品检测、食品维权、食品事故的食品安全专题分析展示功能
政务服务能力:开发包括事项分类、办件数量、办件来源、跑腿次数、办理时限、办结率、行政相对人、各区热点事项的政务服务能力专题分析展示功能
城市立方体模型:开发包括360度分析展示、区域挖掘分析的城市立方体模型专题分析展示功能;
社区画像:开发包括公共能服务能力排名、老龄化排名、学龄儿童排名、人口结构、年龄结构、收入分布、民族结构、学历分布的社区画像专题分析展示功能
建设数据开放子系统(一期):通过数据应用方管理、开放清单管理、数据开放管理、开放授权管理等构建全面的数据开放子系统,为数据应用方、数据管理方、外部第三方等提供数据注册、身份认证、订阅分发、开放数据追溯等功能。
实现可配置的数据开放管理,支持配置后流通任务自动分发部署,在供应端与需求端节点实现标准化的数据接口,数据流通过程可支持标准化业务流程管理,实现自动化、可机读的数据流通,其中:数据开放需支持单条实时流通、异步批量流通两种模式,流通性能不低于10,000QPS。
身份注册:开发身份注册功能,提供自然人、法人身份注册;
身份验证:开发身份验证功能,区分使用者身份实现个性化服务,包括通过App或人脸识别进行身份验证以及法人用户通过法人一证通进行身份验证。
公共数据资源ACL:开发公共数据资源ACL功能,提供公共信息资源目录的查看,基于目录实现数据访问控制;公共数据资源可根据公共信息资源目录及供应情况,使数据使用者获知公共数据提供的范围、方式、更新频率等信息,并整体控制某项数据资源是否开放;
公共数据服务接口注册:开发公共数据服务接口注册功能,实现公共数据服务发布;使得数据使用者获知公共数据服务接口与应用的获取方式、接口形式等信息,控制接口的可用性。
数据应用注册:开发数据应用注册功能,实现公共数据应用发布;可管理数据资源目录与清单、公共数据服务接口与数据应用的注册,以及第三方数据服务的注册。
第三方数据服务支持方服务接口注册:开发第三方数据服务支持方服务接口注册功能,实现第三方数据服务支持方服务接口发布;公共数据服务接口与应用注册需维护公共数据服务接口清单,第三方数据服务支持方以接口形式提供应用数据,便于数据使用者整合使用。提供接口获取方式等信息,控制接口可用性。
可通过该管理模块对数据开放进行全过程的管理,不仅需要包括目录查看、数据信息项查看、数据应用查看、接口信息查看在内的一般性访问,还需包括建立与划分数据主题,开放数据资源的收藏、订阅与分发管理。除此之外,还需建立消息定义事件,由事件驱动事物执行的功能。
数据主题建立:开发数据主题建立功能,建立并管理数据主题
数据主题划分:开发数据主题划分功能,建立数据资源与主题的关联
消息事件管理:开发消息事件管理功能,按照消息定义建立事件,由事件驱动事务的执行
一般性访问:开发一般性访问功能,包括目录查看、数据信息查看、应用信息查看、接口信息查看等功能
收藏:开发收藏功能,注册的访问者收藏特定的数据集、接口、应用
订阅:开发订阅功能,注册的访问者可收藏对频繁更新的同类数据资源
订阅分发:开发订阅分发功能,当数据资源更新时,系统根据事件向相关订阅者推送
扩展平台集成门户:基于统一鉴权中心的基础上实现多租户管理,并根据租户角色提供开发者门户(内部)、运营门户以及开放门户。
并在门户功能框架下实现消息推送、数据推送、个人信息管理、系统管理等功能。
平台集成门户实现多租户管理功能。
多租户能力:开发多租户管理功能,实现按照用户所属职责可分为超级管理员,租户管理员,普通租户。可以根据需要创建包括系统管理员、运营人员、开发管理员、开发者等角色。
租户管理:开发租户管理功能,实现以多租户的思路,将数据能力和数据平台数据处理能力按需、可控的进行开放。
租户内用户管理:开发租户内用户管理功能,实现租户与系统用户映射,以租户的方式实现用户及用户组管理,以达到资源管控及数据权限控制的目的。
租户自注册:开发租户自注册功能,通过租户注册流程实现租户注册。
租户注销:开发租户注销功能,实现租户管理员可以提交租户注销申请来释放租户的资源。
建立运营中心,主要通过从大数据价值、评估、调用、用户等多个维度构建运营中心功能,提升平台运营能力。开发运维视图功能,通过大屏、PC、移动端三屏合一建立可视化运维监控界面,实现数据的统一运维。
数据地图:开发数据地图,实现对数据资产的可视化运营监控。
数据产品使用分析:开发数据产品使用分析功能,实现对数据产品使用情况统计分析,挖掘数据产品价值。
数据价值评估:开发数据价值评估功能,可以从数据的内在价值、市场价值等角度进行数据价值评估。
模型调用次数统计分析:开发模型调用次数统计分析功能,查看各数据模型调用情况,分析模型价值。
平台服务调用统计:开发服务调用统计功能,了解平台对内、对外服务被调用情况。
用户使用统计:开发用户使用统计功能,掌握各委办、区政府、外部机构等受众使用情况。
建立开发中心门户,主要为开发者提供统一开发者入口,通过开发者权限管理,实现让开发者基于开发工具进行程序开发。
开发者权限管理:实现开发者权限管理功能,主要包括开发者登入鉴权、查看权限和权限描述的修改等。
待办事项:开发待办事项功能,系统推送按人划分的待办事项,由使用者进行查看
通知公告:开发通知公告功能,系统推送通知公告信息,由使用者查看
信息推荐:开发信息推荐功能,系统推送推荐信息,由使用者查看
订阅更新:开发订阅更新功能,使用者访问功能查看订阅更新
首页数据:开发首页数据功能,根据使用者身份进行定制展示
我的收藏:开发我的收藏功能,由使用者对收藏的各类信息和数据资源进行查看、删除
我的订阅:开发我的订阅功能,由使用者对订阅内容进行管理并查看更新
入口集成及通知发布:开发通知发布功能,由管理员指定发布范围提供发布信息进行发布。
建立数据开放门户:主要实现数据目录、数据接口、数据应用、数据图谱、地图数据、互动交流、数据开发者、辅助事项、个人管理等各项门户目录的建设。
用户首页:建设开放门户首页,首页能够包含数据目录、数据接口、数据应用、数据图谱、地图数据、互动交流、数据开发者这些模块的链接功能。首页具备用户登录功能,登录后可进入个人管理,能够为用户提供账户个性化的服务。
数据目录:用户能够通过数据目录模块,获取开放数据的数据目录,能够查看组成目录的数据项描述,以及获取目录对应的数据集;
数据接口:用户能够以数据接口模式查询指定数据目录下以API数据接口形式开放的数据资源内容
数据应用:用户能够在数据应用栏目中查看利用开放数据资源形成的各种数据应用,并可查看对应数据应用所使用到的开放数据资源内容;
数据图谱:能以图谱形式呈现开放数据业务所需的统计分析结果。业务统计逻辑包括但不限于以下几个方面:数据资源统计、开放类型统计、数据类型统计、访问分布统计、访问省份排名、数据资源访问情况、数据领域统计、用户需求来源;
地图数据:能够显示集成地理信息的开放数据,并能显示GIS地图中所需的POI信息;
互动交流:互动交流是用户之间、用户与运营人员之间的线上交流社区,包括:信息发布(最新消息、制度保障信息、用户帮助信息)、 需求调研、问卷调查功能;
数据开发者:数据开发者,是为具备具备数据开发能力用户提供交流的线上交流平台。能够具备发帖、搜索、聊天交流、信息共享、提问反馈等分类的线上社区论坛功能;
辅助事项:为开放门户提供“关于我们”、“使用条款”、“友情链接”等门户网站必须的服务信息说明与展示;
个人管理:使用账户登录门户之后可以进入的个人门户模块,可以提供登录后收藏、订阅、需求反馈等与账号登录之后相关的信息;
-
- 服务类业务技术方案
服务类业务主要包括数据采集对接服务、数据抽取运维、作业调度运维、数据资源治理服务、数据质量管理服务、数据融合处理服务、数据分析应用服务、数据标注服务、应用建模服务、数据接口开发服务、数据开放支撑服务、数据运行监管服务。
我司将从政务服务业务梳理着手,开展公共数据梳理,形成公共数据“三清单”,并建立公共数据“三清单”的长效动态更新机制,依据“三清单”进行公共数据归集,夯实数据治理基础。抽取数据业务理解、数据理解、目录编制及数据协议适配、资源挂载、清洗等。
-
-
-
- 数据采集服务
- 数据采集理解
- 数据采集服务
-
-
数据采集(DAQ),又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析,处理。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。
根据数据来源进行分类,数据采集分为大三类:系统文件日志的采集、网络大数据采集、应用程序接入。
1、系统文件日志的采集:
在现有的海量数据采集工具中 ,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
Scribe:作为Facebook开源的日志收集系统,可以从各种日志源上收集日志,存储到一个中央存储系统上,以便于进行集中的统计分析处理。Scribe为日志的“分布式收集,统一处理”提供了一个可扩展的、高容错的方案。
Chukwa:提供了一个对大数据量日志类数据采集、存储、分析和展示的全套解决方案和框架,可以用于监控大规模Hadoop 集群的整体运行情况并对它们的日志进行分析。
2、网络大数据采集
网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
在互联网时代,网络爬虫主要是为搜索引擎提供最全面和最新的数据。目前已经知道的各种网络爬虫工具已经有上百个,网络爬虫工具基本可以分为 3 类。
- 分布式网络爬虫工具,如 Nutch。
- Java 网络爬虫工具,如 Crawler4j、WebMagic、WebCollector。
- 非 Java 网络爬虫工具,如 Scrapy(基于 Python 语言开发)。
3、数据库采集系统
通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中,最后由特定的处理分许系统进行系统分析。
目前常用关系型数据库MySQL和Oracle等来存储数据,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
-
-
-
-
- Hadoop的数据采集框架
-
-
-
Hadoop提供了一个高度容错的分布式存储系统,实现集中式的数据分析和数据共享。在日常应用中要将各种数据采集到HDFS存储服务中去,将数据采集到HDFS常用的框架包括:
- Apache Sqoop
- Apache Flume
- Gobblin DataX
Kettle
针对特定数据源的采集工具:针对Cassandra数据源的Aegisthus,针对mongodb的mongo-hadoop。
各个项目的特点及适用场景:
Apache Sqoop
Sqoop : SQL-to-Had oop,用于在关系型数据库(RDBMS)和HDFS之间互相传输数据。
Sqoop 启用了一个MapReduce任务来执行数据采集任务,传输大量结构化或半结构化数据的过程是完全自动化的。其主要通过JDBC和关系数据库进行交互,理论上支持JDBC的Database都可以使用Sqoop和HDFS进行数据交互。
Sqoop目前分为两个版本Sqoop1和Sqoop2。这是两个完全不同的版本,完全不兼容。Sqoop1了解的朋友都知道它就是一个命令行脚本,而Sqoop2相比Sqoop1引入了sqoop server,集中化的管理Connector,引入基于角色的安全机制,而且支持多种访问方式:cli客户端,Web ui和Rest API。
Sqoop不支持文件解析入库,适用于关系型数据库与HDFS/Hive/HBase之间互相传输数据。它支持多种关系型数据库如mysql、oracle、postgresql。可以高效可控的进行数据导入导出。
Github Star 462, Fork 362
Apache Flume
Apache Flume是一个分布式、可靠、高可用的日志收集系统,支持各种各样的数据来源,如http,log文件,监听端口数据等等,将这些数据源的海量日志数据进行高效收集、聚合、移动,最后存储到指定存储系统中(可扩展),如kafka、HDFS分布式文件系统、Solr,HBase等。
Flume基于流式数据,适用于日志和事件类型的数据收集,重构后的Flume-NG版本中一个agent(数据传输流程)中的source(源)和sink(目标)之间通过channel进行链接,同一个源可以配置多个channel。多个agent还可以进行链接组合共同完成数据收集任务,使用起来非常灵活。
Github Star 1418, Fork 1092
Gobblin
Gobblin是用来整合各种数据源的通用型ETL框架,在某种意义上,各种数据都可以在这里“一站式”的解决ETL整个过程,专为大数据采集而生。
作为一个通用框架,Gobblin的接口封装和概念抽象做的很好,作为一个ETL框架使用者,我们只需要实现我们自己的Source,Extractor,Conventer类,再加上一些数据源和目的地址之类的配置文件提交给Gobblin就行了。Gobblin相对于其他解决方案具有普遍性、高度可扩展性、可操作性。
Github Star 1381, Fork 540
DataX
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
被阿里开源之后的DataX社区并不活跃,但是好在程序的架构设计的好,大部分用户都会选择fork之后基于其进行二次开发。DataX本身由阿里开发对于阿里自身的数据库比如ODPS、ADS等支持更好。
Github Star 1128, Fork 478
Kettle
Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle 中文名称叫水壶,寓意就是希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle是CS架构,拥有自己的管理控制台,同样也可以通过Java代码与我们的工程进行集成,在程序中完成kettle的转换、执行等操作。
Github Star 1956, Fork 1476
-
-
-
-
- 数据采集目录
-
-
-
FHS针对目录树架构仅定义出三层目录,三层目录底下这三个目录的定义:
(1)/ (root, 根目录):与开机系统有关;
(2)/usr (unix software resource):与软件安装/执行有关;
(3)/var (variable):与系统运作过程有关。
第一层次:/: 根目录
根目录,用“/”来表示,启动Linux,把所有核心的启动文件(包括Linux核心本身)都放到一个“/boot"目录下。
当系统启动后,需要执行一些基本命令在操作系统,这些命令都会放到“/bin"目录下。然后这些命令可能会用到一些库,这些库就被放到“/lib"下面,而这些库可能会用到一些设备驱动文件,那么这些驱动文件就会放到“/dev"目录下。
因此FHS定义出根目录(/)底下的目录如下表:
/boot:存放开机启动加载程序的核心文件;(如kernel和grup)
/bin:存放所有用户都可以使用的linux基本操作命令;/sbin:系统管理相关的二进制文件存放在这个目录下,一些可执行文件普通用户只具备较小的权限;(多数管理命令默认只有管理员可以使用)
/lib:系统的函数库非常的多,而/lib放置的则是在开机时会用到的函数库, 以及在/bin或/sbin底下的指令会呼叫的函数库而已。
/dev:设备文件目录,虚拟文件系统,主要存放所有系统中device的相关信息,不论是使用的或未使用的设备,只要有可能使用到,就会在/dev中建立一个相对应的设备文件;
/media:移动存储设备默认挂载点;(如光盘)
/mnt:临时挂载用的设备挂载点;(如磁盘分区,网络共享)
/opt:额外所安装的应用程序目录,有些软件包我们可以将它安装在该目录中;(一般为空,某些应用软件安装需要这个目录); 这里主要存放那些可选的程序。你想尝试最新的firefox测试版吗?那就装到/opt目录下吧,这样,当你尝试完,想删掉firefox的时候,你就可以直接删除它,而不影响系统其他任何设置。安装到/opt目录下的程序,它所有的数据、库文件等等都是放在同个目录下面。
/etc:主机、系统或网络配置文件存放目录;
/srv:主要用来存储本机或本服务器提供的服务或数据。(用户主动生产的数据、对外提供服务)
/tmp :保存在使用完毕后可随时销毁的缓存文件。
/root:管理员root的宿主目录
/home:默认存放用户的宿主目录(除了root用户)。
/proc: Linux系统上的/proc目录是一种文件系统,即proc文件系统。与其它常见的文件系统不同的是,/proc是一种伪文件系统(也即虚拟文件系统),存储的是当前内核运行状态的一系列特殊文件,用户可以通过这些文件查看有关系统硬件及当前正在运行进程的信息,甚至可以通过更改其中某些文件来改变内核的运行状态。
/sys:虚拟文件系统,被建立在内存中,是在2.6版的kernel之后才被加入到正式的文件系统中,以分类的方式将系统的信息存放在这个目录中,以方便linux用户通过不同的分类找出系统相关的信息;
/lost+found:当系统在运行时,有时会无法避免宕机、断电或不正常重启动,在这样的情况下,当系统重新启动时,发现某些文件写入未完成或其他问题产生,一般会使用fsck进行文件修复,而这些被修复或救回的文件,就会被放在这个目录下,只要是一个文件系统,系统就会自动在该文件系统所在的目录下建立"lost+found"目录
第二层次:/usr
当系统启动以后,需要其他一些用于具体工作的程序时,就会加载一个“/usr"目录,上面放重要的运行程序。usr为universal software resource通用软件资源的缩写。这个“/usr"有点类似Windows里面的Program Files。
当软件安装好以后,需要用命令行去调用,则需要一个/usr/bin(软件的基本命令),调用命令需要用到头文件和库函数,则需要有/usr/include(头文件存放处),/usr/lib(库函数存放处)。而软件的源码则存放在/usr/src中。
要点:
1、/usr上面一般都是只读文件,数据文件和配置文件不放在上面;
2、没有“/usr&