大数据&&hadoop入门

最新推荐文章于 2024-10-31 16:17:19 发布

elpsyco

最新推荐文章于 2024-10-31 16:17:19 发布

阅读量82

点赞数

分类专栏： HDFS 文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/elpsyco/article/details/100084400

版权

HDFS 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

大数据&hadoop生态圈

大数据理解
hadoop生态圈

大数据理解

大批量数据，海量数据
解决海量出现产生的一系列问题
1 .如何保存
分开储存：保证数据的完整，保证数据的唯一性，只被储存了一次
2 .如何分析
多个节点一起读部分数据，再一起计算
3 .怎么分析的快
1.堆硬件
纵向堆：增加每个节点的配置
横向堆：增加节点的数量，效果会更好
2.算法优化，归根结底：资源利用率最大
3.优化磁盘的使用频率

hadoop生态圈

第一个大数据框架，大数据行业内当前的基石框架
hadoop2.x版本: 把资源管理和任务调度从MapReduce中分离出来 YARM
hadoop 中最关键的三个板块 ：HDFS ,MapReduce,YARM
hadoop生态圈： HDFS为基础， YARM/MapReduce基于HDFS

hadoop生态圈
Hadoop集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。

（1）HDFS集群：负责海量数据的存储。

（2）YARN集群：负责海量数据运算时的资源调度。

（3）MapReduce：它其实是一个应用程序开发包。

1 . HDFS(hadoop分布式文件系统)
是hadoop体系中数据驻村管理的基础
主节点：namenode
从节点：很多个datanode
namenode : 1 接收用户操作请求
2. 维护文件系统的目录结构
3 管理文件与block之间关系，block与datanode之间关系
datanode ：存储文件，文件被凤城block存储在磁盘上为保证数据安全，文件会有很多个副本

2 . YARN : 资源的统一管理和调度 YARN可以将多种计算框架(如离线处理MapReduce、在线处理的Storm、迭代式计算框架Spark、流式处理框架S4等) 部署到一个公共集群中，共享集群的资源

3 . MapReduce（分布式计算，是大数据应用技术的解决方案）
分而治之，一个大任务分成多个小的任务（map），并行执行后，合并结果（reduce）