菜鸟的Hadoop快速入门

最新推荐文章于 2024-05-23 15:27:10 发布

数澜科技Dtwave

最新推荐文章于 2024-05-23 15:27:10 发布

阅读量948

点赞数 2

分类专栏：技术交流文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/Dtwave_/article/details/98202578

版权

本文是Hadoop的快速入门教程，涵盖了大数据和Hadoop的基本概念，Hadoop的特点，包括其支持超大文件、高扩展性和成熟的生态圈。深入介绍了HDFS的框架、文件读写流程，并简述了MapReduce的工作原理。此外，文章还提供了Hadoop的伪分布式安装步骤，以及对Hadoop更深入学习的展望。

摘要由CSDN通过智能技术生成

一、相关概念

1、大数据

大数据是一门概念，也是一门技术，是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。

大数据包括了以Hadoop和Spark为代表的基础大数据框架，还包括实时数据处理，离线数据处理，数据分析，数据挖掘和用机器算法进行预测分析等技术。

2、Hadoop

Hadoop是一个开源的大数据框架，是一个分布式计算的解决方案。

Hadoop的两个核心解决了数据存储问题（HDFS分布式文件系统）和分布式计算问题（MapRe-duce）。

举例1：用户想要获取某个路径的数据，数据存放在很多的机器上，作为用户不用考虑在哪台机器上，HD-FS自动搞定。

举例2：如果一个100p的文件，希望过滤出含有Hadoop字符串的行。这种场景下，HDFS分布式存储，突破了服务器硬盘大小的限制，解决了单台机器无法存储大文件的问题，同时MapReduce分布式计算可以将大数据量的作业先分片计算，最后汇总输出。

二、Hadoop特点

优点

1、支持超大文件。HDFS存储的文件可以支持TB和PB级别的数据。

2、检测和快速应对硬件故障。数据备份机制，NameNode通过心跳机制来检测DataNode是否还存在。

3、高扩展性。可建构在廉价机上，实现线性（横向）扩展，当集群增加新节点之后，NameNode也可以感知，将数据分发和备份到相应的节点上。

4、成熟的生态圈。借助开源的力量，围绕Hadoop衍生的一些小工具。

缺点

1、不能做到低延迟。高数据吞吐量做了优化，牺牲了获取数据的延迟。

2、不适合大量的小文件存储。

3、文件修改效率低。HDFS适合一次写入，多次读取的场景。

三、HDFS介绍

1、HDFS框架分析

HDFS是Master和Slave的主从结构。主要由Name-Node、Secondary NameNode、DataNode构成。

NameNode

管理HDFS的名称空间和数据块映射信存储元数据与文件到数据块映射的地方。

如果NameNode挂掉了，文件就会无法重组，怎么办？有哪些容错机制？

Hadoop可以配置成HA即高可用集群，集群中有两个NameNode节点，一台active主节点，另一台stan-dby备用节点，两者数据时刻保持一致。当主节点不可用时，备用节点马上自动切换，用户感知不到，避免了NameNode的单点问题。

Secondary NameNode

辅助NameNode，分担NameNode工作，紧急情况下可辅助恢复NameNode。

DataNode

Slave节点，实际存储数据、执行数据块的读写并汇报存储信息给NameNode。

2、HDFS文件读写

文件按照数据块的方式进行存储在DataNode上，数据块是抽象块，作为存储和传输单元，而并非整个文件。

文件为什么要按照块来存储呢？

首先屏蔽了文件的概念，简化存储系统的设计，比如100T的文件大于磁盘的存储，需要把文件分成多个数据块进而存储到多个磁盘；为了保证数据的安全，需要备份的，而数据块非常适用于数据的备份，进而提升数据的容错能力和可用性。

数据块大小设置如何考虑？

文件数据块大小如果太小，一般的文件也就会被分成多个数据块，那么在访问的时候也就要访问多个数据块地址，这样效率不高，同时也会对NameNode的内存消耗比较严重；数据块设置得太大的话，对并行的支持就不太好了，同时系统如果重启需要加载数据，数据块越大，系统恢复就会越长。

3.2.1 HDFS文件读流程

1、向NameNod

最低0.47元/天解锁文章

数澜科技Dtwave

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
菜鸟的Hadoop快速入门

一、相关概念1、大数据大数据是一门概念，也是一门技术，是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。大数据包括了以Hadoop和Spark为代表的基础大数据框架，还包括实时数据处理，离线数据处理，数据分析，数据挖掘和用机器算法进行预测分析等技术。2、HadoopHadoop是一个开源的大数据框架，是一个分布式计算的解决方案。Hadoop的两个核心解决了数据存储问题（H...
复制链接

扫一扫

专栏目录