![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 93
仲夏夜有蚊子
啥都没有呢奋斗中
展开
-
hadoop源代码下载导入eclipse
hadoop是一个分布式存储和分布式计算的框架。在日常使用hadoop时,我们会发现hadoop不能完全满足我们的需要,我们可能需要修改hadoop的源代码并重新编译、打包。下面将详细描述如何从svn上导入并对hadoop进行eclipse下编译。 因项目使用的hadoop版本是0.20.2,所以我们基于hadoop-0.20.2来进行二次开发。 (1)首先转载 2013-04-28 16:13:21 · 821 阅读 · 0 评论 -
hadoop 控制map任务数详解
但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。为了方便介绍,先来看几个名词:block_size : hdfs的文件块大小,默认为64M,可以通过参数dfs.block.size设置total_size : 输入文件整体的大小input_file_num : 输入文件的个数转载 2014-01-13 15:05:47 · 1061 阅读 · 0 评论 -
hadoop2.0安装异常详解
异常一:2014-03-13 11:10:23,665 INFO org.apache.Hadoop.ipc.Client: Retrying connect to server: Linux-hadoop-38/10.10.208.38:9000. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFi转载 2014-04-29 19:50:24 · 659 阅读 · 0 评论 -
Caused by: org.datanucleus.store.rdbms.exceptions.MissingTableException: Required table m
最近需要提取一些数据,故开始使用hive,本机搭建了一个hive客户端环境,但是始终有问题,在本机装好了mysql以后,老是报 Java代码 Caused by: org.datanucleus.store.rdbms.exceptions.MissingTableException: Required table missing : "`DBS`"转载 2014-04-29 20:47:18 · 4335 阅读 · 0 评论 -
hdfs文件操作
package com.dj.hadoop; import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.InputStream; import java转载 2014-04-01 17:06:18 · 675 阅读 · 0 评论 -
mapreduce程序中读取文件过程详解
hadoop的inputformat包括他的子类reader是maptask读取数据的重要步骤一、获得splits-mapper数1. jobclinet的submitJobInternal,生成split,获取mapper数量 Java代码 public RunningJob submitJobInternal {转载 2014-04-02 16:46:07 · 2311 阅读 · 0 评论 -
hadoop如何自定义InputFormats和OutputFormats
Data Mining,NLP,Search EngineHadoop的InputFormats和OutputFormatsInputFormatInputFormat类用来产生InputSplit,并把它切分成record。public interface InputFormat { InputSplit[] getSplits(JobConf转载 2014-04-02 16:52:39 · 1846 阅读 · 0 评论 -
如何将多个对象序列化到同一个文件和反序列化
首先这个问题是否可行,java序列化对象后,对象与对象之间有分割符,所以将多个对象序列化到同一个文件,也能清楚的区分出这些对象,序列化到同一个文件时,文件可以以追加的方式打开,然后向输出流里序列化对象就可以了。反序列化时,可以直接冲输入数据流中读取,但这只能读取第一个对象,我们想读下一个对象,就根据前一个对象的大小跳到下一个对象的开始读取;原创 2014-04-02 20:34:32 · 3143 阅读 · 1 评论 -
hadoop Problem binding to :9000 : Address already in use
命令: lsof -i:9000 COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAMEjava 9302 root 37u IPv6 39077 0t0 TCP hhumaster:cslistener(LISTEN)转载 2014-05-11 10:39:37 · 1226 阅读 · 0 评论 -
Hadoop2.0 端口
查看HDFS: http://16.187.94.161:50070查看RM: http:// 16.187.94.161:8088转载 2014-05-11 10:52:26 · 725 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/转载 2013-12-21 11:32:09 · 567 阅读 · 0 评论 -
Hadoop Filesystem closed Exception
FileSystem.get(uri, conf)方法会根据conf.getBoolean(disableCacheName, false)的值决定是创建FileSystem还是从cache中获取FileSystem, 而默认情况下conf.getBoolean(disableCacheName, false)值为flase(除非特别指定disableCacheName 值为true), 即从原创 2013-07-25 17:51:39 · 2986 阅读 · 0 评论 -
hadoop配置常见错误及解决办法
Incompatible namespaceIDs 解决办法 找到配置文件hdfs-site.xml中dfs.data.dir/opt/hadoop/hdfs/data删除data目录Can not start task tracker because java.io.IOExc原创 2013-05-10 21:23:46 · 5302 阅读 · 0 评论 -
实现mapreduce多文件自定义输出
hadoop mapreduce获取当前数据块所在的文件名使用的0.20.2版本hadoop 查了许久,如何在map方法中获取当前数据块所在的文件名,方法如下: //获取文件名 InputSplit inputSplit=(InputSplit)context.getInputSplit(); Stringfilename=((FileSplit)inputSplit).get转载 2013-05-10 21:29:35 · 839 阅读 · 0 评论 -
在Ubuntu10.04上分布式部署Hadoop0.20.2
在Ubuntu10.04上分布式部署Hadoop0.20.2首先做一下简要说明,Ubuntu是装在虚拟机上的,虚拟机既存在不同的主机上,寄存主机在同一个内网里,这里有一个注意点,Network的连接方式要用桥接(Bridged),这样能使VM的IP和Host在同一个网段,能保证VM之间能够互相ping的通。分布式结构如下,一个namenode和一个datanode:172.28.0.7原创 2013-05-10 21:16:37 · 619 阅读 · 0 评论 -
hadoop原理详解
我们通过下面这个天气数据处理的例子来说明Hadoop的运行原理.1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:· 按照ASCII码存储,每行一条记录· 每一行字符从0开始计数,第15个到第18个字符为年· 第25个到第29个字符为温度,其中第25位是符号+/-00670119909转载 2013-05-10 21:21:03 · 828 阅读 · 0 评论 -
操作hdfs
20:55 2010-6-2运行环境:Hadoop.0.20.2CentOS 5.4 java version "1.6.0_20-ea"配置的是单机Hadoop环境先看下我的运行截图 主要参考这篇文章http://myjavanotebook.blogspot.com/2008/05/hadoop-file-system-tutorial.html转载 2013-05-10 21:31:02 · 938 阅读 · 0 评论 -
轻松使用Hadoop RPC
轻松使用Hadoop RPCHadoop RPC是Hadoop的一个重要部分,提供分布式环境下的对象调用功能,源码在org.apache.hadoop.ipc中。而HBase也几乎完全copy了这部分的源码,只是在配置项上面有所改动。关于Hadoop RPC的机制分析和源码解读,网上已经有许多资料,一搜一大把,这里就不在描述了。本文通过一个小例子,介绍如何调用Hadoop RPC。转载 2013-05-10 21:36:19 · 742 阅读 · 0 评论 -
Hadoop 2.0 NameNode HA和Federation实践
Hadoop 2.0 NameNode HA和Federation实践Posted on 2012/12/10一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直到Apache Hadoop在2012年5月发布转载 2013-07-09 21:49:58 · 897 阅读 · 0 评论 -
Hadoop Namenode HA方案比较
我们来分析一下业界普遍关注的HDFS Namenode高可用解决方案,这些方案的提出无非都是想解决Namenode设计上的单点故障。这些方案按照部署类型可划分为主从(Master-Slave)和集群(Cluster),其中主从根据状态的一致程度又细分为冷备、温备和热备,按照切换方式可划分为人工切换和自动切换,按照数据同步方式可划分为共享存储和复写。 下图列举了目前HadoopHA方案,接下来我们对转载 2013-07-09 21:51:01 · 950 阅读 · 0 评论 -
org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException:
org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create file /usr/root/chen for DFSClient_364758515 on client 192.168.56.2, because this f原创 2013-07-22 09:33:34 · 4281 阅读 · 2 评论 -
hadoop 0.20.2 多文件输出
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish )。 Hadoop默认的输出是TextOutputFormat,输出文件名不可定制。hadoop 0.19.X中有一个org.apache.hadoop.mapred.lib.MultipleOutputFormat,可以输出多份文件且可以自定义文件名,但是从hadoop 0.转载 2014-04-11 19:55:52 · 755 阅读 · 0 评论