系统功能视图设计承接业务能力视图设计的内容,通过对业务需求点的总结、分析和归纳,提炼出对应的系统功能,形成数据接入管理、数据存储管理、数据加工管理、数据共享管理、运维管理、服务监测管理、基础资源管理和系统管理七大管理功能。
数据源配置管理,配置大数据平台可以接入的数据源,记录数据源相关信息,定期检测数据可用状态,配置信息也可用于资源监视等功能。
接入方式配置管理,配置大数据平台的数据接入方式,配置不同接入方式的相应实现手段,包括ETL、数据复制、Web服务、数据采集、文件导入等。
-
-
- ETL接入
-
ETL接入,集成ETL工具,通过ETL方式将业务系统等数据源的明细数据接入大数据平台,可集群部署,横向扩展。支持多级ETL。
数据复制,集成数据复制工具,通过数据复制方式将业务系统等数据源的明细数据接入大数据平台,支持实时链路、海量初始化、大事务。
-
-
- Web服务接入
-
Web服务接入,通过Web服务将业务系统等数据源的明细数据接入大数据平台,需要具备Web服务接入管理的调度功能。Web服务方式包括基于SOAP协议的WebService方式和Restful风格的Web服务方式。
数据采集,集成自动化采集工具,通过在数据源服务器部署采集代理按采集频度自动采集、聚合、传输明细数据到大数据平台。
数据爬虫,集成数据爬虫工具,提供爬虫按采集频度自动定向到目标站点爬取外部公共数据,将数据标准化、规范化后接入大数据平台。
数据补录,支持手工填报、补录主数据、业务明细数据和指标数据等,数据范围涵盖全部自动采集数据范围,作为自动采集(ETL、数据复制、Web服务、数据采集、数据爬虫)接入方式补充。
文件解析及导入,提供文件解析和导入功能,处理特殊的数据接入需求。
数据变更获取,通过接入软件提供的接入数据变更机制获取包括数据内容变化、格式变化、数据同步过程和异常等内容。
数据接入规则管理,记录各种接入方式的数据接入规则与流转,从主题数据可以反向追溯数据接入的源头及转换规则。
数据清洗,依据清洗策略、规则对接入数据进行去重、去脏、去燥清洗。
数据稽核,基于数据完整性、及时性、合法性、一致性进行检查,对发现的问题通过特定方式进行告警并对问题协同处理,建立数据质量的评价体系。
数据接入监测,对数据接入服务运行情况进行监测。监测数据接入的方式、运行情况、调用异常、执行时间、接入数据量、统计等信息,并对监测的结果进行展现和统计。
数据存储区管理,将平台存储在逻辑上进行划分,形成不同的存储区域,记录存储区域数据存储形态、数据内容、数据格式等信息,定期自动扫描。
数据存储格式管理,平台数据存储格式多样,包括关系型数据库、数据仓库、列式存储、文件系统、NoSql存储,记录各种存储形态及相关信息。
数据模型管理,分别记录各存储区域内数据的逻辑模型,物理模型因存储形态的不同差异很大,逻辑模型在形态上对数据进行统一识别,关联区域。
数据归档管理,按照在线、近线、离线的原则对历史数据进行归档迁移。
统一数据接口管理,平台在物理上涵盖各种数据存储形态,切分布于不同设备,通过统一数据接口标准化、规范化数据接入、共享通道。
数据接入路由配置,依据数据特征接入数据路由存储到所在存储区域。
统一存储参数配置,涉及各区域分库/分表、阈值、策略等参数的配置。
数据缓存管理,提供热点数据缓存功能,提高数据使用效率与服务性能。
数据存储监测,对数据存储服务运行情况进行监测。监测数据接入的方式、运行情况、调用异常、执行时间、接入数据量、统计等信息,并对监测的结果进行展现和统计。
数据转换,数据源所存储数据是源明细数据,平台按业务重新划分主题域后,对业务领域数据需要重新建模,两者通过数据转换实现数据标准化、规范化。其中还涉及到代码、字典、计量单位等数据标准制定与统一,此为难点。
指标计算,对业务指标按频度进行批量计算,或实时计算。批量计算涉及数据量大,维度多,计算缓慢,吞吐大。实时计算涉及数据量小,要求时效。
汇总统计,对数据进行合并、加宽、汇总,提供共享和决策应用的支撑。
联机分析,采用传统技术手段,建立业务数据立方体,通过切片、切块、旋转、钻取等方式达到业务分析的目的,采用报表方式进行可视化展现。
数据挖掘,设定挖掘算法,通过归纳推理,从大量数据中挖掘隐含的、未知的、实用的知识,找出事物本质规律,辅助决策支持,需要大量数据知识。
机器学习,设定业务场景,分析业务问题,建立数据模型,采集样本数据,训练模型,对模型进行调优,使结果尽量收敛与有效范围,解决问题。
数据加工监测,对数据加工服务运行情况进行监测。监测数据接入的方式、运行情况、调用异常、执行时间、接入数据量、统计等信息,并对监测的结果进行展现和统计。
数据直接访问,通过Sql、API方式直接访问平台数据,需要拥有较高等级的访问权限,访问效率高、数据吞吐量大,对网络传输要求较高。
数据服务访问,对于要求数据量较小、访问级别较低、自定义数据交换格式的目标应用,以服务方式提供平台数据,数据吞吐量小,网络传输要求低。
实时数据推送,对于要求实时展现数据的目标应用,提供从平台到目标应用的推送服务,平台实时感知数据变化,通过多种技术方式推送到应用。
数据协议交换,适用于大批量数据交换的场景,双方以协议商定的方式定制化交换数据的数据模型、数据范围、交换频度、交换协议等内容。
服务交付管理,对服务形成全面管理,包括服务创建、注册、修改、删除,以及通过访问数据的服务接入、访问模式、访问路由、流量控制等。
数据可视展现,可以形象地向用户展示数据分析结果,更方便用户对结果的理解和接受,基于图标、图像、像素等可视化技术。
数据共享监测,对数据共享服务运行情况进行监测。监测数据共享的方式、运行情况、调用异常、执行时间、接入数据量、统计等信息,并对监测的结果进行展现和统计。
运维配置,包括数据运维与服务运维两部分,设置数据/服务监测单元、数据/服务监测对象、数据/服务监测规则、数据/服务监测任务,供运维使用。
平台可根据定义的监测对象和指定的监测规则来对数据进行监测、生成监测报告、对监测不通过的数据进行报警等功能,实现数据质量的管理。
平台可根据定义的监测对象和指定的监测规则来对服务进行监测、生成监测报告、对监测不通过的服务进行报警等功能,实现服务质量的管理。
元数据管理,要具备元数据分类、存储、访问标准,要涵盖技术元数据、业务元数据,支撑主题数据、转换规则、标准代码、数据访问等管理功能。
主数据管理,需要实现对主数据的分类、结构维护、编码规则维护、数据维护、数据同步等功能,作为共享数据提供对各业务应用的支持。
信息资源目录,以正向/反向、手工/自动的抽取方式,实现对平台存储的所有信息资源的元数据信息的采集,将相关资源元数据挂接到资源目录树,以统一视图的方式提供完整的信息资源目录。
管理维护大数据平台的用户信息。
系统内日志的记录和查询,将所有操作记录记入系统日志。
实现对系统单位、部门组织和人员的权限管理和维护功能。
提供对大数据平台的系统参数的配置功能