hadoop
文章平均质量分 63
tuiyidelongdidi
这个作者很懒,什么都没留下…
展开
-
编译Hadoop的Eclipse插件
在参考了:http://blog.csdn.net/yundixiaoduo/article/details/7451753 和 http://zhengzhuangjie.iteye.com/blog/1557734之后成功编译hadoop eclipse插件。流程如下:1.下载hadoop 1.0.3 (http://hadoop.apache.org/releases.htm...原创 2012-12-12 16:33:23 · 83 阅读 · 0 评论 -
mapreduce驱动默认设置
mapreduce驱动默认设置(job)原创 2014-04-23 12:23:01 · 172 阅读 · 0 评论 -
HDFS block块的副本存放策略
转自:http://www.cnblogs.com/sparkwoo/archive/2013/05/14/3077440.html并作一些修改,以更容易理解副本存放策略 系统默认为每一个数据块存放3个副本,按照布署在NameNode上的默认机架感知策略存放数据块副本。其中:第一个block副本放在上传文件的datanode,如果是集群外提交则随机挑选一台磁盘不太满,cp...原创 2014-04-23 16:29:57 · 1173 阅读 · 0 评论 -
hadoop调度器
转自:http://www.ibm.com/developerworks/cn/opensource/os-hadoop-scheduling/自从可插入式调度器实现以来,已开发了多种调度器算法。接下来的章节将会介绍各种算法以及各自适用的情况。FIFO 调度器集成在 JobTracker 中的原有调度算法被称为 FIFO。在 FIFO 调度中,JobTracker 从工作队列中拉取作...原创 2014-04-23 17:08:31 · 77 阅读 · 0 评论 -
hadoop1.2.1 MultipleOutputs将结果输出到多个文件或文件夹
hadoop1.2.1中使用MultipleOutputs将结果输出到多个文件或文件夹使用步骤主要有三步:1、在reduce或map类中创建MultipleOutputs对象,将结果输出class reduceStatistics extends Reducer<Text, IntWritable, Text, IntWritable>{ //将结果输出到多个文...原创 2014-04-24 09:06:06 · 351 阅读 · 0 评论 -
mapreduce的reduce输出文件进行压缩
hadoop对每个压缩格式的支持,详细见下表: 压缩格式 工具 算法 文件扩展名 多文件 可分割性 DEFLATE 无 DEFLATE .deflate 不 不 gzip gzip DEFLATE .gz 不 不 ZIP zip DEFLATE .zip 是 是,在文件范围内...原创 2014-04-24 10:04:01 · 327 阅读 · 0 评论 -
Hadoop DistributedCache详解
转载自董的博客 http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/ 感觉分布式缓存的作用就是缓解带宽压力DistributedCache是Hadoop提供的文件缓存工具,它能够自动将指定的文件分发到各个节点上,缓存到本地,供用户程序读取使用。它具有以下几个特点:缓存的文件是只读的,...原创 2014-04-24 10:57:17 · 89 阅读 · 0 评论 -
HDFS中PathFilter类对路径进行过滤
1、定义类实现PathFilter接口package com.ru.hadoop.wordcount;import org.apache.hadoop.fs.Path;import org.apache.hadoop.fs.PathFilter;/** * 文件路径过滤 * @author nange * */public class MyFilePa...原创 2014-04-24 14:58:22 · 525 阅读 · 0 评论 -
hadoop小文件处理以及解决方案(压缩技术)
小文件太多的问题:hdfs上每个文件都要在namenode上建立索引,索引大小大约为150byte。所以大量小文件会产生很多索引,占用大量namenode内存,而且索引太多导致检索速度变慢。 小文件解决方案:1、hadoop自身提供一些文件压缩方案2、从系统层面改变现有hdfs存在的问题,其实还是小文件的合并,然后建立比较快速的索引 下面分别对这两种解决方案做一些解...原创 2014-04-25 08:51:38 · 460 阅读 · 0 评论 -
MapReduce执行流程
转自:http://blog.csdn.net/javaman_chen/article/details/8576028 MapReduce的大体流程是这样的,如图所示:由图片可以看到mapreduce执行下来主要包含这样几个步骤1.首先对输入数据源进行切片2.master调度worker执行map任务3.worker读取输入源片段4.worker执行map任务,将任务输出保存在本地5...原创 2014-04-22 22:44:30 · 127 阅读 · 0 评论 -
eclipse远程连接hadoop服务器
1、 安装开发hadoop插件 将hadoop安装包hadoop\contrib\eclipse-plugin\hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse的插件目录plugins下。 需要注意的是插件版本(及后面开发导入的所有jar包)与运行的hadoop一致,否则可能会出现EOFException异常。 重...原创 2012-12-13 13:53:30 · 198 阅读 · 0 评论 -
hadoop2.2.0伪分布式安装
安装前解决的问题:1、hadoop官网下载的hadoop二进制文件是在32位环境下编译的(地址:http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.2.0/),如果在64位linux下安装需要自己下载源码进行编译(参考:http://blog.csdn.net/li385805776/article/details/17269497)...原创 2014-01-20 16:28:01 · 104 阅读 · 0 评论 -
hadoop1.2.1安装配置
环境:ubuntu13使用的用户为普通用户。如:用户rujdk安装略1、安装ssh(1)sudo apt-get install openssh-server (2)配置ssh面密码登录$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/author...原创 2014-01-21 23:09:12 · 125 阅读 · 0 评论 -
hbase0.96.1.1安装配置
环境:ubuntu13.10,jdk1.7用户:普通用户(非root) 一、单机安装1、下载及解压Hbase安装包写道http://mirror.bit.edu.cn/apache/hbase/hbase-0.96.1.1/下载:hbase-0.96.1.1-hadoop1-bin.tar.gz解压:tar -zxvf hbase-0.96.1.1-h...原创 2014-02-08 14:34:06 · 100 阅读 · 0 评论 -
hbase的常用指令
hbase(main):030:0> helpHBase Shell, version 0.96.1.1-hadoop1, rUnknown, Tue Dec 17 11:52:14 PST 2013Type 'help "COMMAND"', (e.g. 'help "get"' -- the quotes are necessary) for help on a specif...原创 2014-02-09 16:55:00 · 122 阅读 · 0 评论 -
hadoop查看和离开安全模式
1、查看namenode是否是安全状态hadoop dfsadmin -safemode getSafe mode is OFF 2、进入安全模式(hadoop启动时30秒内是安全状态)nange@ubuntu:/$ hadoop dfsadmin -safemode enterSafe mode is ON 3、离开安全模式nange@ubuntu:/$ ha...原创 2014-04-20 22:35:23 · 3687 阅读 · 0 评论 -
hdfs 架构
架构图 hdfs采用master/slave架构,主要由以下组件组成:client、namenode、secondarynode、datanode 1、clientclient通过与namenode和datenode的访问hdfs中文件,client提供一些接口供用户调用2、namenodehadoop集群只有一个namenode,它负责管理hdfs目录树以及相关文件的...原创 2014-04-20 23:22:47 · 143 阅读 · 0 评论 -
hadoop常用指令
1、列出正在运行的jobnange@ubuntu:~$ hadoop job -list0 jobs currently runningJobId State StartTime UserName Priority SchedulingInfo 2、kill掉job(1234指jobid)nange@ubuntu:~$ hadoop job -kill 1234 ...原创 2014-04-21 22:42:26 · 84 阅读 · 0 评论 -
MapReduce编程接口体系结构
MapReduce编程模型对外提供的编程接口体系结构如图3-1所示,整个编程模型位于应用程序层和MapReduce执行器之间,可以分为两层。第一层是最基本的Java API,主要有5个可编程组件,分别是InputFormat、Mapper、Partitioner、Reducer和OutputFormat。Hadoop自带了很多直接可用的InputFormat、Partitioner和Outpu...原创 2014-04-26 21:16:08 · 422 阅读 · 0 评论