Hadoop实例笔记详解(一)

本文详细介绍了Hadoop的组成部分,包括Common模块及其包含的类库,以及HDFS的基本概念,如NameNode、DataNode和Secondary NameNode的工作原理。Hadoop作为一个分布式框架,适合大规模数据的存储和处理,但不适用于实时数据访问和小文件存储。HDFS通过NameNode管理文件元数据,DataNode存储数据块,而Secondary NameNode则是NameNode的冷备份。
摘要由CSDN通过智能技术生成

Hadoop实例笔记(一):Hadoop组成之Common&HDFS概述


前言

本文是在学习了一段时间的Hadoop后,以实例的形式将部分知识点予以聚合并分析的体会总结。从实例的角度出发不需要将大量宏观的知识点一次性的注入大脑的“数据池”中,而是随着实例的开发,将众多的结构性知识串联起来形成一个完整的Hadoop生态环境(可扩展性)。 具体的实例会在完成概述后创建。

本文引用的主要资源:
官方文献:http://hadoop.apache.org/
B站的尚硅谷大数据:https://www.bilibili.com/video/BV1Qp4y1n7EN

一、Hadoop简述

引自官方的描述: The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

一句话:Hadoop是一个通过集群对大数据进行处理的分布式框架。

优缺点描述:
优点:
1,高容错性:在集群中自动增加多个副本以降低数据损失的风险,依据策略在某个副本丢失后自动恢复。
2,分布式和流数据:分布式使多个服务同时运行,快速的处理以GB甚至TB为单位的数据;流数据则将大数据依策略分割为一定数量的块,即使丢失一部分也不影响整体的传输。
3,低成本:集群对底层服务器并没有严格的性能限制,数据可以大量的部署在低廉的设备上。
缺点:
1,不适合时效性(比如毫秒级)高的数据访问。

评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值