hadoop
文章平均质量分 68
j3smile
专注于分布式计算、数据挖掘。坚韧平和,不浮躁。
展开
-
如何向Map中传递参数?
如何向Map中传递参数?The Configuration APIComponents in Hadoop are configured using Hadoop’s own configuration API. Aninstance of the Configuration class (found in the org.apache.hadoop.conf package)re原创 2012-03-20 10:53:52 · 2198 阅读 · 0 评论 -
运行hadoop程序 结果文件大小为0
在eclipse运行hadoop程序,显示:12/03/01 09:22:31 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=12/03/01 09:22:31 WARN mapred.JobClient: Use GenericOptionsParser for p原创 2012-03-20 10:53:00 · 3342 阅读 · 0 评论 -
hadoop streaming 细节
1)streaming combiner 不一定非是java程序2)combiner 与-numReduceTasks 1有关mjiang@venus ~/java/eclipse/target-hadoop/Streaming-jar $ hadoop jar ~/hadoop-1.0.0/contrib/streaming/hadoop-streaming-1.0.0.jar原创 2012-04-12 09:44:26 · 1547 阅读 · 0 评论 -
hadoop1.0.0版本下DistributedCache实现
边数据分布:边数据是作业所需的额外的只读数据,以辅助处理主数据集。所面临的挑战是如何使所用Map和Reduce任务都能够方便而高效的使用边数据。我们用DistributedCache Api实现:1)刚开始用1.0.0的api怎么也不行,运行到patternsFiles = DistributedCache.getLocalCacheFiles(job);patternsFil原创 2012-04-12 11:12:25 · 971 阅读 · 0 评论 -
hadoop-1.0.0的hadoop-streaming-1.0.0.jar还是按照以前的api编写/如何将自定义InputFormat加入Streaming
hadoop-1.0.0的hadoop-streaming-1.0.0.jar还是按照以前的类编写的mjiang@venus ~/hadoop-1.0.0 $ vi src/contrib/streaming/src/java/org/apache/hadoop/streaming/StreamJob.javaimport org.apache.hadoop.mapred.FileAl原创 2012-03-26 22:03:08 · 2158 阅读 · 0 评论 -
hadoop中Map的输出文件命名与分片次序一致
从后往前加:getSpilit源码 while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) { String[] splitHosts = getSplitHosts(blkLocations, length-bytesRemaining, splitSi原创 2012-04-12 09:29:34 · 756 阅读 · 0 评论 -
hadoop学习问题总结
1)找到问题的原因sequenceFile时连接不上错误,一直以为是集群没有搭建成功,运行其他程序却没有问题,确定是程序本身的问题。2)hadoop streaming babel不能处理连续的两个由sequencefile生成的文件,一直不知道是什么原因,将sequence用cat导出时,又上网搜发现是babel不能处理在分子开始处多一个空行的文件。3)hadoop的streami原创 2012-03-20 11:03:26 · 1089 阅读 · 0 评论 -
hadoop管理细节
1)运行hadoop程序后怎么也不动单独杀死stop-mapred.shstart-mapred.sh ok2)伪分布式下转到分布式下时,不用hadoop namenode -format。只需stop-all.sh ,然后单独启动start-dfs.sh.后运行 hadoop dfsadmin -safemode leave最后hadoopp balancer原创 2012-04-12 09:51:31 · 439 阅读 · 0 评论 -
hadoop远程客户端安装配置、多用户权限配置
hadoop远程客户端安装配置客户端系统:ubuntu12.04客户端用户名:mjiang服务器用户名:hadoop下载hadoop安装包,保证和服务器版本一致(或直接copy服务器的hadoop安装包) 到 http://mirror.bjtu.edu.cn/apache/hadoop/common/ 下载tar.gz安装包,解压。tar zxvf had原创 2012-08-20 19:14:58 · 20068 阅读 · 2 评论 -
hadoop streaming中指定自定义的inputformat java类
解决了hadoop streaming中指定自定义的inputformat java类想在streaming中用自己的输入类:看到网上说:How do I provide my own input/output format with streaming?At least as late as version 0.14, Hadoop does not support mult原创 2012-03-19 23:09:07 · 3126 阅读 · 0 评论 -
hadoop实践一
hadoop in action一定要将hadoop装在所有机子的一个位置,用户名也一样例子出想错误:$:bin/hadoop jar hadoop-examples-0.20.203.0.jar wordcount input/ out/out 原来不应该有提示:org.apache.hadoop.mapred.FileAlreadyExistsException:原创 2011-11-22 15:54:07 · 443 阅读 · 0 评论 -
成功在pseudo-distributed mode下运行wordcount 程序
搭建pseudo-distributed 环境:配置文件如下:::::::::::::::core-site.xml:::::::::::::: fs.default.name hdfs://localhost:9000 The name of the default file system. A URI wh原创 2012-02-14 14:28:53 · 1464 阅读 · 0 评论 -
Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序
Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序博客分类:hadoopHadoopEclipseMapreduceJavaUbuntu接上一篇文章:Hadoop学习全程记录——hadoop 入门这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序。新说明一下我的开发环境转载 2012-02-24 14:56:20 · 684 阅读 · 0 评论 -
Hadoop集群搭建
<!--p {margin-bottom:0.21cm}pre.cjk {font-family:"宋体",monospace}-->Hadoop集群搭建一、Linux系统配置1、在所有的机器上都建立相同的目录,也可以就建立相同的用户,以该用户的home路径来做hadoop的安装路径。例如在所有的机器上都建立了名为fan的用户:/home/fan。原创 2012-02-15 20:29:49 · 449 阅读 · 0 评论 -
hadoop 单机版 下的 NewMaxTemperature实现
下载源代码:https://github.com/tomwhite/hadoop-book/生成class文件javac -classpath share/hadoop/hadoop-core-1.0.0.jar -d hadoop-book/classes-i hadoop-book/ch02/src/main/java/NewMaxTemperature.java 生成原创 2012-02-16 11:03:56 · 500 阅读 · 0 评论 -
Hadoop的简单配置以及与Eclipse的整合
Hadoop的简单配置以及与Eclipse的整合Posted on December 25, 2011 by huangchao1.Hadoop的简介wikipedia:hadoop2.安装与配置我用的操作系统为Ubuntu 11.10安装Hadoop:下载地址需要注意的是,目前各个版本的信息如下0.20.X – legacy stable vers转载 2012-02-28 12:50:21 · 2355 阅读 · 0 评论 -
hadoop MapReduce程序 不包含Reduce的设置
hadoop-0.20.2版本: public int run(String[] args) throws Exception { Configuration conf = getConf(); JobConf job = new JobConf(conf, TestSdfInputFormat.class);原创 2012-03-26 22:27:07 · 2415 阅读 · 0 评论 -
hadoop自定义SdfInputFormat,文件按标记分片
由于要用hadoop streaming处理sdf文件,而sdf文件的文件格式为1 -OEChem-12181003042D.....$$$$以$$$$结尾的多行。而hadoop默认的分片为:以分块为基础的分片 for (FileStatus file: files) { Path path = file.getPath();原创 2012-03-20 10:38:35 · 1563 阅读 · 0 评论 -
hadoop hdfs 文件与分块理解
hadoop fsck / -files -blocks会告诉集群中块的分配情况当集群中的datanode数小于3时,块的复制份数也不会超过3分析结果是:文件不够一个块的大小时,也单独占用一个块。查看map源码,map任务也不会跨文件处理两个文件不会共用一个块原创 2012-03-26 20:36:27 · 2616 阅读 · 0 评论 -
eclipse下hadoop配置
弄了一天,终于搞定了。记录一下。只是处于入门阶段,所以很多东西都不知道原因。只能说我是怎么做的。以前配置好的hadoop的环境,用的是hadoop 0.20.203版本。单机版,伪分布式,集群都实验成功。用的是gentoo系统,刚开始用的是eclipse3.5版本,可是按照Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序 说的做了后,出现了原创 2012-03-26 20:35:28 · 1723 阅读 · 0 评论 -
hadoop-实践error
error1在没有配置conf/*-site.xml之前还能运行的很好。配置成功了以后就出错mjiang@venus ~/program/program/hadoop/install/hadoop-0.20.203.0 $ hadoop jar hadoop-examples-0.20.203.0.jar wordcount input/ out111/11/29 12:11:35原创 2011-11-29 21:45:17 · 2892 阅读 · 1 评论