基于Ambari下的大数据架构设计

        安装过 hadoop 集群的人都应该清楚,hadoop 生态从安装、配置到后期运维是一个非常艰辛的过程,一般来说安装 hadoop 可能就需要几天时间,运维一个小型集群同样需要几个人。ambari 和 cloudera Manager 这两个系统,目的就是简化 hadoop 生态集群的安装、配置,同时提高 hadoop 运维效率,以及对 hadoop 集群进行监控。

        Ambari 是 Hortonworks 贡献给 Apache 开源社区的顶级项目,它是一个基于 web 的工具,用于安装、配置、管理和监视 Hadoop 集群。Cloudera Manager 是 cloudera 公司的一个产品,着重于帮助大家管理自己的 cdh 集群,通过 Cloudera Manager 统一的 UI 界面来快速地自动配置和部署 cdh 和其相关组件。

以下是 ambari 与 cloudear manager 之间的对比

大数据分析技术框架

大数据分析技术架构

1.大数据采集技术

        数据采集是指通过RFID射频数据、物联网数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。

        大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。

2.大数据预处理技术

主要完成对已接收数据的辨析、抽取、清洗、数据转换等操作。

        a、抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。

        b、清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。

数据清洗流程图

        数据交换处理应用层包括消息传输层及数据交换。消息传输层负责在应用服务器与数据库代理之间传输参与数据交换的数据资源定义信息,数据交换任务启动停止信息,数据交换任务实时监控信息,数据文件传输等。数据交换指异构关系数据库实体间实现数据同步,通过数据抽取、传输及加载完成数据同步。其中,抽取数据过程需要对被抽取的数据资源进行必要的分析,只有满足抽取规则才能被成功抽取,抽取数据支持对数据过滤;加载是抽取的逆过程,更为复杂的加载规则,以保障成功加载及异常信息的全面捕获。

        c、数据转换:数据转换包括数据过滤、类型转换、文件拆分与合并、维度转换等功能。数据转换的任务主要是进行不一致的数据转换、数据粒度的转换和一些转换规则的计算。其中不一致转换过程是数据整合的过程,侧重于将来源于不同业务系统的相同类型的数据进行统一处理;数据粒度转换需要按照数据仓库粒度对数据进行统一归整;转换规则计算按照设计的计算归则对数据进行重新计算。

3.大数据存储及管理技术

        大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及MySQL数据库。

环卫局环境数据建库的主要目的是:通过数据中心的建设,整合污染源普查、环境统计、排污申报、排污收费、污染源在线监测、大气自动站、地表水站自动监测、环保信访、固废管理、行政处罚等已有系统数据;通过新建的行政许可网上审批系统,整合建设项目审批、夜间建筑施工、污染物排放许可、辐射安全许可等相关信息;通过污染源管理系统,形成全市统一的动态污染源台帐,加强对污染源的管理;通过对环境质量监测数据的整合,形成环境质量数据库,强化对环境质量的管理。

环卫数据中心应用将从数据整合、数据建模、数据扩展、集成配置,统一搜索,分析决策等方面入手,按照相关行业标准文件要求的数据组织方式组织数据。

围绕环卫用专项业务数据建立可靠可信的管理机制,提供数据标准管理、数据资产管理、元数据管理、数据质量管理、数据安全等,以实现数据的可管、可控、可视,为实现数据价值增值奠定良好基础。

开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

4.大数据分析及挖掘技术

大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据应用是在基础数据库数据基础上提供的应用功能。主要包括综合查询、报表应用、资料及网页信息检索。综合查询实现各类查询定制,显示;查询定制包括关联查询模型定制,交互界面定制,自定义查询的查询SQL定义,显示定制查询结果。

报表应用功能由报表定制、数据抽取、数据运算、数据展现四部分构成;报表定制定义报表的数据来源,定义报表的显示格式并生成报表模板,报表引擎通过报表模板记录的信息通过数据抽取层来抽取数据并进行运算,运算后的数据通过数据展现层展现给用户。报表应用的核心架构如下图所示:

 大数据挖掘展示流程图

可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。

        数据可视化支持多方数据源接入,提供多种数据报表分析展现,包括:智能报表展示、仪表盘展现、自助分析报表、多维分析、Office插件支持、移动可视化保险等,操作方式简单、高效并且深度结合业务场景需要,真正为用户提供的一站式、可视化、低门槛、高价值的数据分析服务。  通过简单拖拽即可呈现结果,处理速度高效,帮助业务人员快速的进行数据分析,实现数据价值。直觉化设计,操作简便,真正实现业务用户自助数据分析;在Web上实现类似Excel数据透视表,轻松实现多表关联查询,任意字段都可作为筛选条件,分析、探索能力强;通过平台,简化工作,采用类似Excel数据透视表的设计,多维分析不需建立模型,就能够组合维度、汇总计算、切片、钻取,洞察数据;数据的查询只需勾选操作;任何字段都可直接作为输出字段或筛选条件,轻松实现对数据的查询与探索。在分析过程中形成多维分析报表,可对其数据进行计算、编辑等操作,可以基于多维分析报表生成多种多样图形展现形式,而且在对数据作分析时,数据与图形可实现联动的数据刷新;提供了一流、动态、可管理的钻取分析、关联分析功能。支持在多维模型上实现钻取操作,可以在多维报表之间进行关联分析,更可从多维报表钻取到明细报表,以发现问题背后的根源。

数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。

预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;

根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。

根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗亚方舟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值