大数据&&hadoop入门

大数据&hadoop生态圈

大数据理解

大批量数据,海量数据
解决海量出现产生的一系列问题
1 .如何保存
分开储存 :保证数据的完整,保证数据的唯一性,只被储存了一次
2 .如何分析
多个节点一起读部分数据,再一起计算
3 .怎么分析的快
1.堆硬件
纵向堆:增加每个节点的配置
横向堆:增加节点的数量,效果会更好
2.算法优化,归根结底:资源利用率最大
3.优化磁盘的使用频率

hadoop生态圈

第一个大数据框架,大数据行业内当前的基石框架
hadoop2.x版本: 把资源管理和任务调度从MapReduce中分离出来 YARM
hadoop 中最关键的三个板块 :HDFS ,MapReduce,YARM
hadoop生态圈: HDFS为基础 , YARM/MapReduce基于HDFS

hadoop生态圈
Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。

(1)HDFS集群:负责海量数据的存储。

(2)YARN集群:负责海量数据运算时的资源调度。

(3)MapReduce:它其实是一个应用程序开发包。

1 . HDFS(hadoop分布式文件系统)
是hadoop体系中数据驻村管理的基础
主节点 :namenode
从节点 :很多个datanode
namenode : 1 接收用户操作请求
2. 维护文件系统的目录结构
3 管理文件与block之间关系,block与datanode之间关系
datanode :存储文件 ,文件被凤城block存储在磁盘上 为保证数据安全,文件会有很多个副本

2 . YARN : 资源的统一管理和调度 YARN可以将多种计算框架(如离线处理MapReduce、在线处理的Storm、迭代式计算框架Spark、流式处理框架S4等) 部署到一个公共集群中,共享集群的资源

3 . MapReduce(分布式计算,是大数据应用技术的解决方案)
分而治之,一个大任务分成多个小的任务(map),并行执行后,合并结果(reduce)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值