智慧园区支撑平台建设

一、园区大数据平台

基础数据库建设

基础数据库是“智慧园区“应用项目的建设基础,也是未来园区信息化发展的必选建设内容, 基础数据库的建设不是数据的简单堆砌,更重要的工作是根据数据共享和应用需要对数据进行整理,提高数据质量,形成不同粒度和层次的信息资源,提供支持”智慧园区”公共服务平台全方位数据分析应用的数据体系,为科学决策、有效管理提高信息支持保障。

(1)城市地理空间数据建设

1、基础空间数据共享数据库

基础空间数据共享数据库是在基础空间数据库的基础上,经过处理与整合形成的基于各部门应用的基础空间数据共享数据库,将依据编制的相关标准体系,经过数据处理、提取和整合,从而提供各部门共享应用的统一的地理空间共享数据。

(2)园区人口数据库

在经过公共数据交换平台的统一交换、比对后,人口数据进入人口基础信息库:

1)交换网络:依托园区电子政务网络平台构建的,连接各业务部门交换前置机的网络。

2)交换前置机:由操作系统、前置交换信息库、信息交换通讯接口、信息交换桥接接口、前置交换安全管理模块组织。

3)前置交换信息库:各业务部门及数据资源中心之间共享信息双向交换的中转数据库。包括部门对外发布的信息和从其他部门接收的信息。

4)信息交换系统:实现不同部门前置交换信息库之间安全、可靠、稳定、高效的信息交换传递系统。

5)信息交换桥接:由部门业务应用信息库到前置交换信息库之间的信息交换桥接接口,以完成两个信息库之间的在线实时交换。

6)人口基础信息数据库:是以身份证号码、姓名为唯一标识,经在线实时交换及信息比对后形成的人口基础信息数据库。

7)管理与服务系统:由数据比对、基础信息数据库管理与维护、日志管理、用户及权限管理、数据备份以及对整个交换运行情况的监控等部分组成。

(3)法人数据建设

1)以城市公共资源数据为依托

法人数据建设依赖于城市公共资源数据共享交换平台,法人库的各个指标项通过公共资源数据交换平台从各部门抽取,再通过公共资源数据交换平台提供的信息整合功能,完成法人数据的比对、清洗与沉淀,最后,法人数据通过公共资源数交换平台提供的信息服务功能,对外提供法人数据的检索、统计的信息服务。

2)以应用促建设

无论是法人数据建设,还是城市公共资源数据共享交换平台建设,其最终目的都是为了更快捷方便地开发与实施各类应用系统,各类应用系统的建设反过来会对法人数据建设提出更多的指标项共享服务要求。因此,从国内外相关项目的实施经验看,通过应用系统的建设来促进法人数据的建设时是切实可行的建设思路。

3)打好基础,按需扩展

法人数据的建设涉及众多的部门,相关的数据指标项也会根据社会的发展情况发生变化,因此,法人数据的建设是一个逐步完善个过程。在项目建设初期,应以若干典型应用的建设牵头,完成法人数据的基础数据库建设,以后,随着应用建设的推广逐步按需扩展指标项。

大数据处理平台

(1 ) 大数据基础平台

提供基础管控、基础服务的大数据基础支撑功能。大数据基础平台要充分利用目前先进的大数据处理技术,保证系统技术的前瞻性和先进性。大数据基础平台要求提供海量数据的采集、存储、计算、接口服务能力; 需要满足海量、异构的大数据的存储、共享、开放及分析挖掘方面的要求; 需要采用主流的大数据的技术架构,全面满足结构化数据、半构化数据及非结构化数据的存储、处理及计算要求; 提供多种数据采集工具,支持多种格式数据采集; 提供接口服务,供二次开发应用等。

大数据基础平台要求能够管理大数据中心集群的物理服务器资源,控制分布式程序运行,隐藏下层故障恢复和数据冗余等细节,为大数据处理平台提供统一的管理、监控、维护等日常管理功能。主要包括:资源管理、安全管理、运维管理、集群部署及监控、任务调度等功能,同时配备友好的管理界面。

①数据采集要求

大数据处理平台数据主要来自数据资源中心,包括基础库( 人口库、法人库、地理信息库、视频库 ) 数据、主题库 ( 业务数据库 ) 数据和互联网数据,同时也支持其他外部系统数据来源。数据采集系统要求提供多种数据采集工具,支持多种格式数据采集。对于结构化数据、非结构化数据以及网络数据采用不同的采集工具进行数据导入。支持多种数据采集方式,比如 ETL、FTP、文件导入导出、关系数据库数据等。

②分布式存储要求

平台能够根据结构化数据和非结构数据的不同特点,分别提供数据仓库和分布式列式数据库存储服务,底层支撑技术支持分布式文件系统,所有的数据可以形成多份副本均匀分布存储在各个服务节点的存储上,保证数据可靠性和提高读写效率。

③大数据计算引擎要求

离线计算引擎 (Mapreduce):离线分布式计算作为一个海量结构化数据离线处理与分析服务,着力于实时性要求不高的海量数据(TB/PB 级别) 离线处理。支持并行化、容错、数据分布、负载均衡。离线计算引擎需要具有 PB 级的存储处理能力和计算吞吐能力,支持多应用多实例并发同时计算并隔离应用数据和程序的能力。

支持 Mapreduce 等批量数据分布式计算框架。

支持分布式内存计算框架。

支持作业查询预处理调度算法,可根据业务属性对指定的多个队列按照优先级的配置进行任务的提交。

具备高可靠性,支持主控节点双机,避免单点故障不可恢复。

具备高度可扩展,可动态增加/削减计算节点,真正实现弹性计算。

支持离线计算组件界面配置化,可以对配置进行查看和修

改,并立刻生效。

支持离线计算组件性能指标界面可视化,通过界面实时监控组件性能指标。

支持多租户权限管理能力,支持不同用户之间的资源隔离。

支持多应用多实例并发同时计算并隔离应用数据和程序的能力。

内存计算引擎(Spark ):基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。由于中间输出和结果可以保存在内存中,从而不再需要读写分布式文件系统,能更好地适用于数据挖掘与机器学习等需要迭代的算法。

支持作业查询预处理调度算法,可以根据业务属性对指定的多个队列按照优先级的配置进行任务的提交。

支持审计日志可查询,在管理运维的界面中可以进行内存计算引擎日志的查询。

支持相关存储目录规整,对内存计算引擎的数据目录进行规整,修改默认配置,并提供界面上的修改配置的地方。

支持配置界面化,能够在管理运维界面上对内存计算引擎的配置进行查看和修改,并能够同步到前台立刻生效。

支持通过界面展示性能指标,能够在界面上查看内存计算引擎的性能指标数据。

支 持 on Yarn 等方式,在管理运维界面上安装服务,可以在安装的时候,选择 On Yarn 等的方式安装。

支持内存计算引擎的 Master 的 HA等,可以对内存计算引擎的 master 角色进行 HA等部署,以保证该节点的高可用性。

实时计算引擎(例如 spark streaming、Storm):实时分布式计算需要提供大吞吐量的实时流式数据处理。要求保证高可靠性的前提下让数据处理更加实时,具备低延时、容错和分布计算特性。采用分布式计算框架提供实时计算服务,可按需扩容。

支持高并发低延时的数据处理。

计算引擎:支持 SPARK STREAMIN等G实时计算框架、STORM分布式流式计算框架两种计算框架功能。

支持对流数据的处理,数据可以建立关联处理。

高效处理数据:支持消息的分流、合流、聚合的消息处理。

数据按业务分析,可支持不同的应用接入,并对应不同的应用输出计算结果。

事件监测:对数据处理低延时,满足事件监控等实时性要求很高的场景。

具备高可靠性,支持主控节点双机,具备自动容错能力,避免单点故障不可恢复。

支持实时计算组件界面配置化,可以对配置进行查看和修改,配置修改立刻生效。

支持实时计算组件性能指标界面可视化,通过界面实时监控实时计算组件性能指标。

④全文搜索引擎(例如 solr )

提供丰富的查询语言,同时实现可配置、可扩展并对查询性能进行优化,提供一个完善的功能管理界面。可以实现集中式的配置信息、自动容错、查询时自动负载均衡、自动分发的索引和索引分片和事务日志等多种特色功能。

可以对搜索引擎集合进行快照,可以周期、定时创建集合快照,对索引数据进行备份。

提供搜索引擎数据切换自动化工具,一键式操作实现搜索引擎数据从一个集群切换到另外一个集群,安全可靠。

提供搜索引擎节点扩容数据重分布自动化工具,搜索引擎节点扩容后数据均匀的重分布到新增节点上,负载均匀的分担到各节点上。

支持搜索引擎服务自动拉起功能,提高可靠性。除管理平台界面手工停止服务之外的异常服务停止后都会自动拉起,保证服务连续可用。

⑤资源管理(例如 yarn )

资源管理要求能够实现调度和分配集群的内存和计算等资源给上层应用和服务,能够管理运行在集群节点上的任务的生命周期和资源使用,提供静态资源池和动态资源池功能。在多用户运行环境中,能够支持计算额度和访问控制,作业优先级和资源抢占,达到在保障公平的前提下,有效地共享集群资源。支持VIP 队列管理,支持根据业务需要指定作业在指定的计算节点上运行,隔离重点任务和普通任务,保障重点任务的物理资源。要 求给出详细的设计方案。资源管理能够面向海量数据处理和大规模计算类型的复杂应用提供统一的资源管理和调度。提供通用的并行计算框架,要求兼容批量分布式计算、内存分布式计算、流式计算等多种编程模式。具备高可扩展性,支持作业定点调度,支持优先级高的作业优先分配到资源。能够自动检测故障和系统热点,重试失败任务,保证作业稳定可靠运行完成。

支持作业定点调度,指定作业在哪些主机上运行,隔离重点任务和普通任务。

支持队列增加优先级属性,优先级高的作业优先分配到资源。

支持白名单功能,限制客户端向集群的 resourcemanager 提交作业。

支持提交权限,限制无权用户提交作业并运行。

支持队列属性修改图形化,在图形化界面中配置新增、修改、删除队列属性。

支持队列属性增加“最大作业提交数” 属性,在图形化界面中新增“最大作业提交数” 属性可配置

⑥分布式协作服务(例如 Zookeeper )

分布式协作服务提供分布式、高可用的协作服务,可以用来构建分布式应用。它能为分布式文件系统、分布式列式数据库、离线计算、资源管理与调度、数据仓库等大数据组件提供重要的功能支撑。在分布式应用中,通常需要分布式协作服务来提供可靠的、可扩展的、分布式的、可配置的协调机制来统一各系统的 状态。

帮助系统避免单点故障,建立可靠的应用程序。

提供分布式协作服务和维护配置信息。

⑦安全管理

安全管理能够提供以用户为单位的身份认证和授权,能够对集群数据资源和服务进行访问控制,包括系统用户、应用用户的身份和权限管理,日志管理等。

⑧运维管理

主机管理:可以对已经添加的主机及其运行状态进行查询,可以对单台主机进行全面监控。通过在已添加主机安装代理,支持通过代理访问计算集群提供相关组件服务和操作。要求给出详细的设计方案。

服务管理:对大数据平台包含的各个组件服务提供的管理界面,可对各组件运行状态进行监控,可执行启、停操作; 除手动停止服务外,系统监测到服务异常终止时可以自动拉起服务,并可以根据需要打开或关闭自动拉起开关。可对具体角色实例进行管理。为避免应用之间在申请组件服务时相互干扰,提升应用的健壮性和可靠性,应支持相同组件的服务既共享物理资源,又相互独立。要求给出详细的设计方案。

告警管理:告警管理功能包括告警查看、阀值设置。监控系统各类异常,在管理界面上实时呈现。支持集群内不同节点差异化告警阈值设置。

系统管理:包括系统配置、巡检、备份。其中,系统配置包含版本设置和 SNMP设置。巡检功能需要支持自动巡检和手动巡检两种方式。提供备份功能,包含快照和集群间备份。支持服务日志级别动态调整,支持组件配置项快速查找功能,并且用户可以根据需要新增自定义组件配置项。

⑨展现界面设计

详细展示大数据平台的运行情况。界面展示内容包括主页界面、集群界面、主机管理界面、告警管理界面、安装界面、系统管理界面、日志界面、安全界面等。

主页界面:可以整体查看集群的整体运行状况,包括主机、服务等资源的数量、在线情况; 运行负载情况; 以及告警信息。

集群界面:包含服务管理、静态资源池、动态资源池等; 其中,服务管理界面提供对大数据平台各组件运行状态进行监控,可执行启、停操作; 静态资源池界面和动态资源池界面可对根据服务状态对资源进行静态和动态调整。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shawn_song1212

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值