Hadoop实例笔记(一):Hadoop组成之Common&HDFS概述
文章目录
前言
本文是在学习了一段时间的Hadoop后,以实例的形式将部分知识点予以聚合并分析的体会总结。从实例的角度出发不需要将大量宏观的知识点一次性的注入大脑的“数据池”中,而是随着实例的开发,将众多的结构性知识串联起来形成一个完整的Hadoop生态环境(可扩展性)。 具体的实例会在完成概述后创建。本文引用的主要资源:
官方文献:http://hadoop.apache.org/
B站的尚硅谷大数据:https://www.bilibili.com/video/BV1Qp4y1n7EN
一、Hadoop简述
引自官方的描述: The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.一句话:Hadoop是一个通过集群对大数据进行处理的分布式框架。
优缺点描述:
优点:
1,高容错性:在集群中自动增加多个副本以降低数据损失的风险,依据策略在某个副本丢失后自动恢复。
2,分布式和流数据:分布式使多个服务同时运行,快速的处理以GB甚至TB为单位的数据;流数据则将大数据依策略分割为一定数量的块,即使丢失一部分也不影响整体的传输。
3,低成本:集群对底层服务器并没有严格的性能限制,数据可以大量的部署在低廉的设备上。
缺点:
1,不适合时效性(比如毫秒级)高的数据访问。