Hadoop-HDFS

本文详细介绍了Hadoop的起源、组成及版本,重点解析了HDFS的特性、优缺点,包括NameNode、DataNode的角色,以及HDFS的Block机制、副本放置策略。此外,还涵盖了HDFS的shell操作、读写流程和安全模式。最后,讨论了如何通过Java接口操作HDFS。
摘要由CSDN通过智能技术生成

一、Hadoop概述
Hadoop是Google的集群系统的开源实现。

  • Google的集群系统:GFS、MapReduce、BigTable
  • Hadoop的集群系统:HDFS、MapReduce、HBase
    Hadoop的设计初衷是为了解决Nutch海量数据存储和处理需求,可以解决大数据场景下的海量数据的存储和处理问题。

传统数据和大数据的区别
①.传统数据

  • GB、TB级别的数据
  • 数据增长不快
  • 主要为结构化的数据
  • 统计和报表

②.大数据

  • TB、PB级别的数据
  • 数据持续的高速增长
  • 半结构化、非结构化的数据
  • 用于数据挖掘和预测性分析

    大数据是对海量数据的获取、存储、聚合和管理这些数据以及对这些数据进行深度分析和预测的新技术和新能力。

  • 大数据定义:

    定义1:所涉及的数据量规模巨大到无法通过人工,在合理时间内截取管理处理并整理成为人类所能解读的信息。(Dan Kusnetzky,What is “Big Data”?)

    定义2:不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。(维克托 迈尔-舍恩伯格、肯尼斯 库克耶,“大数据时代”)

    定义3:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(“大数据”(Big Data)研究机构Gartner)

注:hadoop名字的起源:
Doug Cutting如此解释Hadoop的得名:“这个名字是我的孩子给一头吃饱了的棕黄色的大象命名的。我的命名标准就是简短、容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子在这方面是高手,Google就是由孩子命名的。”
Hadoop组成:HDFS、MapReduce、Yarn


二、Hadoop版本和下载安装

1.下载
下载地址:http://hadoop.apache.org/releases.html
Apache Hadoop的成熟版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。
第一代Hadoop分为三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变为稳定版本,而0.21.x和0.22.x则添加了NameNode和HA等重大特性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值