hadoop
文章平均质量分 81
iteye_19607
这个作者很懒,什么都没留下…
展开
-
新人学步:hbase与hadoop搭建过程
因为工作需要,我们使用hbase + hadoop存储基于用户内容的数据(UGC),本文将描述如何逐步搭建此平台,仅作参考。 1. 环境 操作系统:Red hat 6.3,300G硬盘,双核CPU JAVA:JDK1.6 HBASE:hbase-0.98.1 Hadoop:hadoop-2.2.0...原创 2014-05-30 14:20:59 · 176 阅读 · 0 评论 -
HDFS备忘
HDFS文件系统 一、HDFS设计 HDFS为hadoop的核心组件,为hadoop底层的文件存储系统。它通常运行在商用硬件集群上,用来存储超大文件、大规模文件。 1、超大文件 "超大文件"是指具有数百MB、数G甚至数T大小的文件;HDFS设计为了存储大量“超大文件”。 2、流式数据访问 HDFS的文件为“一次写入”、“多次读取”,这种高...原创 2014-08-21 17:41:24 · 132 阅读 · 0 评论 -
YARN指令[官网整理]
【YARN指令(2.2+)】 1、jar:运行jar “yarn jar <jar-path> [mainClass] args”2、application:操作application(job) “yarn application <options>”,其中可选的options有: -status <appliationId...原创 2014-08-20 14:23:57 · 247 阅读 · 0 评论 -
YARN-FairScheduler[官网整理]
【YARN-FairScheduler(2.2+)】 本文档介绍FairScheduler,一个hadoop Scheduler,在大规模集群中允许YARN中的applications公平的共享集群资源。 一、介绍 FairScheduler是一个资源分配方式,在整个时间线上,所有的applications平均的获取资源。Hadoop NextGen能够调度多种类型...原创 2014-08-20 11:59:26 · 265 阅读 · 0 评论 -
YARN-CapacityScheduler[官网整理]
【YARN-CapacityScheduler】 此文档描述CapacityScheduler,一个hadoop支持的可插拔的scheduler,它允许“multiple-tenants”(多租户)安全的共享集群资源,所以它们的applications在容量限制之下,可以及时的分配资源。 一、Overview CapacityScheduler被设计成以“share...原创 2014-08-19 16:24:35 · 250 阅读 · 0 评论 -
YARN架构[官网整理]
【MapReduce Yarn架构(2.2+)】 Mapreduce经过hadoop-0.23的修正之后,有了新的框架Mapreduce 2.0(MRv2),或者成为YARN。 MRv2的基本思想就是将JobTracker的两个功能拆分成resourceManager和job Scheduling/monitoring两个独立的守护进程。这个思想是有一个全局的Resource...原创 2014-08-18 16:06:35 · 377 阅读 · 0 评论 -
HDFS Quotas[官网整理]
【HDFS Quotas(2.2+)】 HDFS允许管理员对各个目录设定文件的个数(name quotas)或者空间使用(space quotas)总量。其中“name quotas”和“space quotas”可以分别设定。 一、Name Quotas Name Quota是一个硬性限制,用来控制目录下文件或者子目录的个数。如果超过了设定的quota,那么创建文件...原创 2014-08-18 13:44:54 · 259 阅读 · 0 评论 -
HDFS架构[官网整理]
【HDFS Architecture(2.2+)】 HDFS是一个分布式文件系统,可以运行在廉价的商用机器上。它与现有的其他分布式文件系统有很多相似之处,当然也有很多不同之处。HDFS具有较高的容错性,适用于存储较大集合的数据,并能够支撑较高的吞吐能力。HDFS放宽了一些POSIX要求,以能够流式的访问数据。 一、硬件故障 硬件故障是常见的,而不是例外;一个H...原创 2014-08-16 16:21:57 · 238 阅读 · 0 评论 -
HDFS Snapshot[官网整理]
【HDFS Snapshot(2.2+)】HDFS Snapshot是文件系统在某一时间点的只读的备份,Snapshot可以针对文件系统的子树或者整个文件系统。Snapshot的通常用法是做数据backup,以避免用户错误和灾难恢复。 HDFS Snapshot实现是高效的: 1、Snapshot的创建是瞬间完成:除了节点遍历耗时之外,其创建的开销为O(1)。...原创 2014-08-14 17:40:08 · 908 阅读 · 0 评论 -
HDFS Federation[官网整理]
【HDFS Federation(2.2+)】 一、Background HDFS数据存储主要有两层: 1、 Namespace,包含“目录”、“文件”、“blocks”信息,支持所有的与namepace相关的文件系统的操作,例如目创建、删除、修改,以及对目录文件的列表操作。 2、Block存储服务: A) Block管理:Namenode...原创 2014-08-13 16:56:03 · 156 阅读 · 0 评论 -
HDFS HA与QJM[官网整理]
【使用QJM构建HDFS HA架构(2.2+)】 本文主要介绍HDFS HA特性,以及如何使用QJM(Quorum Journal Manager)特性实现HDFS HA。 一、背景 HDFS集群中只有一个Namenode,这就会引入单点问题;即如果Namenode故障,那么这个集群将不可用,直到Namenode重启或者其他Namenode接入。 有两种方...原创 2014-08-12 16:35:51 · 204 阅读 · 0 评论 -
HDFS用户手册[官方整理]
【HDFS User Guide(2.2)】 一、Overview HDFS是hadoop应用的核心存储引擎,其中HDFS集群包含2种节点,一种为管理文件系统metada的NameNode,另一种为存储实际数据的DataNodes。HDFS架构文档中会详细描述它们,这个用户手册主要介绍用户或者管理员如何操作HDFS;HDFS架构图中表名NameNode与DataNodes和C...原创 2014-08-09 18:49:16 · 654 阅读 · 0 评论 -
HDFS常用命令[备忘]
【HDFS常用命令】一、appendToFile:将一个或多个目标文件append到hdfs文件中,目标文件可以为本地文件或者stdin。 使用方式:hdfs dfs -appendToFile <localFile or -> <hdfs-path or hdfs URL> 1) ./hdfs dfs -appendToFile /data.t...原创 2014-08-06 18:16:59 · 478 阅读 · 0 评论 -
Hadoop常用命令[备忘]
【Hadoop常用命令】一、 fsck:hdfs文件系统集群状态检测。 使用方式:./hadoop fsck <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]] ./hadoop fsck / 可选options列表: ...原创 2014-08-06 14:44:15 · 199 阅读 · 0 评论 -
Hadoop分布式安装[官网整理]
Hadoop Cluster Setup(2.2) 【Installation】 下载hadoop安装文件并在解压在指定路径下,通常把hadoop安装在所有nodes中的相同路径下,便于集群管理。典型的拓扑结构为,集群中一个node为namenode,其他多个节点为datanodes;在mapreduce中,其中一个节点作为ResourceManager,其他多个节点作为No...原创 2014-08-05 14:33:24 · 129 阅读 · 0 评论 -
Mapreduce部署与第三方依赖包管理
Mapreduce部署是总会涉及到第三方包依赖问题,这些第三方包配置的方式不同,会对mapreduce的部署便捷性有一些影响,有时候还会导致脚本出错。本文介绍几种常用的配置方式: 1. HADOOP_CLASSPATH 在hadoop的相关配置文件中,添加CLASSPATH路径,那么在hadoop的各个进程启动时都会载入这些包,因此对于mapreduce-job ja...2014-06-12 15:52:51 · 312 阅读 · 0 评论 -
关于Hadoop中replication factor解惑
我们在向hadoop写入文件时,这个文件的“replication”个数到底该如何控制? 在hadoop server端,core-site.xml中有个参数为“file.replication”,同时在hdfs-site.xml中也有个“dfs.replication”,这两个参数到底谁可以决定文件的“replication”个数? 在hadoop开发时,我...2014-06-09 16:18:03 · 1612 阅读 · 0 评论 -
HDFS读写路径详解
【HDFS读写路径详解】 HDFS中我们通常使用FileSystem类来操作文件系统,提供了众多类POSIX接口调用风格的方法。一段典型的代码样例为:public static void read(String path) throws Exception{ Configuration conf = new Configuration(); FileSystem ...原创 2014-08-25 17:08:48 · 5026 阅读 · 1 评论