大数据普及技术概念分析

计算机第三次革命:云计算、物联网、大数据

大数据

大数据时代依赖于三方面:1、带宽 2、存储 3、cpu。

概念

数据量大,数据类型繁多,1秒定律,价值密度低、商业价值高

大数据相关技术

1、大数据技术层次

1)数据采集
2)数据存储与管理
3)数据处理与分析
4)数据隐私与安全
技术核心(分布式处理、分布式存储eg:hdfs)

2、大数据计算模式

1)批处理计算 MapReduce、Spark等
2)流计算 Storm、Flume、Streams、S4等
3)图计算 Pregel、GraphX、Hama等
4)查询分析计算 Hive、Impala等

3、Hadoop

在这里插入图片描述
1)HDFS :多台机器实现数据的分布式存储
2)MapReduce:分布式处理框架,高效利用集群完成大规模数据批处理,把大处理分成多个片段进行并行处理。
3)YARN:调用底层cpu、内存资源,统一管理分配 。调度MapReduce任务,任务放在那个节点上执行,YARN管理及调度的。
4)Hive:hadoop上数据仓库产品,多节点数据,借助于HDFS或HBase完成海量数据存储, 同时Hive可以接收用户sql语句查询转换成底层MapReduce作业进行分布式计算得到结果反馈回去。
5)Pig:脚本语言。数据流转换,例如数据源数据进行转换加载到数据仓库中。简单查询分析也可以用它分析。
6)Mahout:最初支持Hadoop数据挖掘,机器学习。提供算法库专门为机器学习提供支持。后来转入支持spark,因Hadoop中MapReduce实现方式为磁盘读取存入,不利于数据迭代操作。
7)HBase:典型分布式数据库。文件系统HDFS不满足存储数据结构,部分数据借助于数据库存储,非关系型数据库,列族数据库。
8)Zookeeper:分布式协助服务,Hbase主从结构,例如分布式数据库需要主从节点,选择主节点,或主节点坏掉怎样去选出新的主节点。
9)Flume:不同数据源数据实时采集存储在HDFS、HBase数据库中。
10)Sqoop:关系型数据库转换后出入HDFS或HBase中,可以完成快速批量数据导入,Hadoop中的数据也可以批量导入关系型数据库中。
11)Ambari:安装、部署、配置、管理。可视化监视,集群自动化部署。

4、MapReduce

利用HDFS把大数据存储在多个机器上,怎样进行分布式计算了?
分而治之:一个存储在分布式文件系统中的大规模数据集会被切分成许多独立分片,这些分片可以被多个Map任务并行处理。
计算向数据靠拢:大文件分配在多个机器上,MapReduce任务放在数据机器上执行。
两个函数:Map和Reduce
在这里插入图片描述
在这里插入图片描述

5、YARN

例如一个企业有1000台机器,若需要storm,hadoop,impala等框架,1000台机器每台机器都部署所有框架组成集群,每个框架都抢底层资源,无协调者,就和打架一样了。再或者每个框架都搭300台机器的集群,遇到问题就是流计算比较闲的时候批处理非常忙,就不能利用资源了,再者数据共享问题,既要执行流计算也的批处理的问题。维护代价高。
YARN统一管理资源,storm、hadoop等需要资源时YARN统一分配。在YARN可以允许spark,storm,Hadoop等,扮演资源管理及调度的角色。

6、Spark

MapReduce中存在一些缺陷,Spark是优秀替代者。批处理、sql、流计算、图计算等都可以用Spark解决,全方位软件站。Spark组件非常多,并兼容Hadoop,可以和Hive、HDFS等组合使用。
Hadoop缺陷:以MapReduce为核心,无论什么类型都需转化为Map、Reduce任务组合去做。磁盘开销量太大,读磁盘写磁盘。延迟高,多个Map任务需全部结束才可执行Reduce任务。
1)Spark计算模式属于MapReduce,不局限于Map和Reduce,提供了多种数据集操作类型,filter、join等。
2)Spark基于内存计算。
3)Spark基于数据流管道,一个输入相当于其它的输出。
在这里插入图片描述
Hadoop在进行迭代计算非常耗资源,而Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算避免了从磁盘中频繁读取数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值