Hadoop实例笔记详解（一）

最新推荐文章于 2024-06-20 08:41:52 发布

moon650

最新推荐文章于 2024-06-20 08:41:52 发布

阅读量1.8k

点赞数 2

分类专栏： Hadoop概述文章标签： hadoop hdfs 大数据

本文链接：https://blog.csdn.net/moonhua/article/details/114714722

版权

本文详细介绍了Hadoop的组成部分，包括Common模块及其包含的类库，以及HDFS的基本概念，如NameNode、DataNode和Secondary NameNode的工作原理。Hadoop作为一个分布式框架，适合大规模数据的存储和处理，但不适用于实时数据访问和小文件存储。HDFS通过NameNode管理文件元数据，DataNode存储数据块，而Secondary NameNode则是NameNode的冷备份。

摘要由CSDN通过智能技术生成

Hadoop实例笔记(一)：Hadoop组成之Common&HDFS概述

前言

本文是在学习了一段时间的Hadoop后，以实例的形式将部分知识点予以聚合并分析的体会总结。从实例的角度出发不需要将大量宏观的知识点一次性的注入大脑的“数据池”中，而是随着实例的开发，将众多的结构性知识串联起来形成一个完整的Hadoop生态环境（可扩展性）。具体的实例会在完成概述后创建。

本文引用的主要资源：
官方文献：http://hadoop.apache.org/
B站的尚硅谷大数据：https://www.bilibili.com/video/BV1Qp4y1n7EN

一、Hadoop简述

引自官方的描述： The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

一句话:Hadoop是一个通过集群对大数据进行处理的分布式框架。

优缺点描述：
优点：
1，高容错性：在集群中自动增加多个副本以降低数据损失的风险，依据策略在某个副本丢失后自动恢复。
2，分布式和流数据：分布式使多个服务同时运行，快速的处理以GB甚至TB为单位的数据；流数据则将大数据依策略分割为一定数量的块，即使丢失一部分也不影响整体的传输。
3，低成本：集群对底层服务器并没有严格的性能限制，数据可以大量的部署在低廉的设备上。
缺点：
1，不适合时效性（比如毫秒级）高的数据访问。