Hadoop
文章平均质量分 77
大数据专家
Just do IT.
展开
-
Hadoop是什么?基本概念
1.1 什么是HADOOPApache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:Hadoop Common:支持其他Hadoop模块的常用工具。Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。...原创 2018-07-31 19:01:55 · 11937 阅读 · 0 评论 -
hadoop分布式集群搭建
一、分布式集群搭建1.HADOOP集群规划2.HADOOP集群安装步骤1.准备三台Centos6.7 64bit虚拟机,虚拟机名分别为:Centos6.7_min1Centos6.7_min2Centos6.7_min3注意 三台机器使用root用户登陆系统2.分别修改虚拟机的主机名(hostname)分别在机器中执行修改hostname命令(需要重启)...原创 2018-07-31 19:12:02 · 148 阅读 · 0 评论 -
HDFS的概念
1.1 HDFS的介绍 源自于Google的GFS论文 发表于2003年10月 HDFS是GFS克隆版 ,HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制,为大量用户提供性能不错的文件存取服务 。1.2 HDFS设计目标 自动快速检测应对硬件错误 流式访问数据 移动计算比...原创 2018-07-31 19:24:58 · 875 阅读 · 0 评论 -
HDFS的java api使用
1.2 HDFS控制(Java)hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个:static FileSystem get(Configuration conf); ...原创 2018-07-31 19:39:13 · 389 阅读 · 0 评论 -
zookeeper的概念
什么是zookeeper Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务 zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) Zookeeper集群的角色: Leader 和 follower (Observer) zookeeper在底层...原创 2018-07-31 19:54:25 · 181 阅读 · 0 评论 -
Hadoop HA
第一节:HADOOP HA概述1.1 背景 在Hadoop 2.0.0之前,NameNode是HDFS集群中的单点故障(SPOF)。每个群集都有一个NameNode,如果该机器或进程不可用,整个群集将不可用,直到NameNode重新启动或在单独的计算机上启动为止。这在两个主要方面影响了HDFS集群的总体可用性: 在计划外事件(例如机器崩溃)的情况下,直到操作员重新启动NameNod...原创 2018-08-01 00:04:17 · 390 阅读 · 0 评论