hadoop
文章平均质量分 52
blackproof
这个作者很懒,什么都没留下…
展开
-
hadoop报错
原创 2015-05-25 13:36:58 · 250 阅读 · 0 评论 -
hadoop 报错 org.apache.hadoop.mapred.TaskTracker: Process Thread Dump: lost task
tack: java.lang.UNIXProcess.waitForProcessExit(Native Method) java.lang.UNIXProcess.access$900(UNIXProcess.java:20) java.lang.UNIXProcess$1$1.run(UNIXProcess.java:132)Thread 2957 (JVM Runner jvm_201005091721_0012_m_209736581 spawned.):原创 2013-10-13 16:38:37 · 195 阅读 · 0 评论 -
hadoop 调度器 capacityTaskScheduler
oozie 统计,搭建物理模型,etl服务的请求;各设置25。 1.修改mapred-site.xml <property> <name>mapred.jobtracker.taskScheduler</name> <value>org.apache.hadoop.mapred.CapacityTaskScheduler</value>原创 2013-09-27 20:24:43 · 80 阅读 · 0 评论 -
hadoop 报错 org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException
打开文件最大限制echo "fs.file-max = 65535" >> /etc/sysctl.conf echo "* - nofile 65535" >> /etc/security/limits.confsysctl -pulimit -n 修改hadoop配置vi hdfs-site.xml<property> <name原创 2013-09-26 23:26:22 · 676 阅读 · 0 评论 -
hadoop oozie 报错
mmitter.marksuccesfuljobs</name> <value>false</value></property> 3.hadoop 无法创建新本地流程需要将linux用户拥有的线程数增大:vi /etc/security/limits.confhadoop soft nproc 32000hadoop hard nproc 32000 vi原创 2013-09-26 17:38:13 · 106 阅读 · 0 评论 -
hadoop自定义outputformat源码
cation if (reduces == 0 ? jobCopy.getUseNewMapper() : jobCopy.getUseNewReducer()) { org.apache.hadoop.mapreduce.OutputFormat<?,?> output = ReflectionUtils.newInstance(context.getOutputForma原创 2013-02-19 11:59:54 · 98 阅读 · 0 评论 -
hadoop自定义inputformat源码
unningJob submitJobInternal { return ugi.doAs(new PrivilegedExceptionAction<RunningJob>() {....int maps = writeSplits(context, submitJobDir);//生成split,获取mapper数量....}} jobclinet的writesplit方法 private int writeSplits(org.a原创 2013-02-17 18:14:21 · 84 阅读 · 0 评论 -
hadoop 自定义inputformat和outputformat
原创 2013-02-17 11:44:37 · 91 阅读 · 0 评论 -
hadoop 命令
原创 2013-02-12 14:20:24 · 94 阅读 · 0 评论 -
hadoop RPC
Client的Connection内部类负责Socket的操作 setupIOStream方法建立socket连接 sendParam(call)方法传输客户端socket数据 receiveResponse会阻塞等待服务端的response 客户端Client没有使用NIO, 而是使用Connection线程的对象池,以ConnectionID为主键。 ------------------------------------原创 2013-01-23 15:47:07 · 91 阅读 · 0 评论 -
hadoop 源码分析
job分解为几个task,并返回task头信息 2.MapTask中 计算map task数量 运行map -- 遍历执行task 将mapper循环给context 结束map之后,统一执行quickSort 3.进入reduce准备 -- 将map的输出转为reduce的输入copy file 对输入进行排序sort file(小文件优先在前)原创 2013-01-14 10:03:32 · 112 阅读 · 0 评论 -
hadoop map reduce参数
cpu数目 一个job会使用tasktracker的reduce任务槽数mapred.reduce.tasks = cpu数目>2?cpu数目*0.5:1 一个tasktracker最多同时运行reducer任务数量mapred.tasktracker.reduce.tasks.maximum原创 2014-01-21 21:06:52 · 90 阅读 · 0 评论 -
hadoop secondnamenode配置
ta. The current design allows only one Secondary Namenode per HDFs cluster. The Secondary Namenode is a daemon that periodically wakes up (determined by the schedule specified in the configuration), triggers a periodic checkpoint and then goes ba原创 2014-02-28 20:26:45 · 819 阅读 · 0 评论 -
hadoop 工作流程 图
2014-03-09 22:59:27 · 279 阅读 · 0 评论 -
hadoop 常用配置备忘
原创 2015-04-30 16:04:14 · 79 阅读 · 0 评论 -
protocal buffers入门实例
opackage tutorial;option java_package="";//包名option java_outer_classname="PersonProtos";//类名message Person{ required string name = 1; //required为必填,optional为可为空 required int32 id =2; required string email = 3; m2014-09-22 21:08:18 · 210 阅读 · 0 评论 -
hadoop MultipleOutputs规定多文件名
ts(conf); 2.在mapper或reducer中OutputCollector<NullWritable,Text> collector = multipleOutputs.getCollector("prefix-", "partition1", reporter); 3.在close方法中multipleOutputs.close(); 这样这个reduce输出的文件名为prefix-par原创 2014-09-18 20:58:15 · 93 阅读 · 0 评论 -
基于hadoop的推荐算法-mahout版
2014-08-29 17:25:28 · 633 阅读 · 0 评论 -
Maven搭建hadoop环境报Missing artifact jdk.tools:jdk.tools:jar:1.6
<groupId>org.apache.hadoop</groupId> <artifactId>hadoop-mapreduce-client-core</artifactId> <version>2.4.0</version> </dependency原创 2014-08-20 16:31:02 · 154 阅读 · 0 评论 -
hadoop hdfs读写
原创 2014-07-20 14:04:59 · 71 阅读 · 0 评论 -
hadoop namenode报错
version -18.An upgrade to version -32 is required. 解决方法:start-dfs.sh -upgrade运行此命令,去升级namenode的fimage原创 2014-06-06 19:40:36 · 246 阅读 · 0 评论 -
hadoop配置文件笔记
用于balance。x=0.95*node*yhadoop.job.history.location job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。hadoop.job.history.user.location 用户历史文件存放位置io.sort.factor30这里处理流合并时的文件排序数,我理解为排序时打开的文件数io.sort.mb600排序所使用的内存数量,单位兆,默认1,我记得原创 2014-05-15 23:13:45 · 82 阅读 · 0 评论 -
hadoop join
原创 2014-03-09 23:09:38 · 73 阅读 · 0 评论 -
hadoop 二次排序
y中2.sortCompare类或key的CompareTo方法中完成对key+value-part的比较3.GroupingCompare中只对key进行比较,这样相同的key跌倒获取到reduce中 转:http://blog.csdn.net/heyutao007/article/details/5890103mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编原创 2014-03-09 23:06:41 · 78 阅读 · 0 评论 -
hadoop join实现
ext departNo = new Text(); public Text getDepartId() { return departId; } public void setDepartId(String departId) { this.departId = new Text(departId); } public Text getDepartNo() { return departNo; } public void setDepartNo原创 2012-12-31 16:02:15 · 143 阅读 · 0 评论 -
hadoop pig 之 开发调试命令
dump描述:输出关系数据语法:dump alais<!--[if !supportLists]-->1.3 <!--[endif]-->explain描述:使用explain可以输出脚本的计划语法:EXPLAIN [–script pigscript] [–out path] [–brief][–dot][–param param_name =param_value] [–param_file file_原创 2012-11-05 15:50:26 · 171 阅读 · 0 评论 -
hadoop与eclipse
原创 2012-10-17 10:17:15 · 80 阅读 · 0 评论 -
hadoop namenode报错
hadoop启动报错2014-06-06 19:37:11,332 ERROR org.apache.hadoop.hdfs.server.namenode.FSNamesystem: FSNamesystem initialization failed.java.io.IOException:File system image contains an old layout version ...原创 2014-06-06 19:40:36 · 121 阅读 · 0 评论 -
hadoop自定义outputformat源码
hadoop outputformat是reduceTask中的重要过程1.实例化outputformat,检查输出目录合法性在jobClient的submitJobInternal反射生成的outputformat // Check the output specification if (reduces == 0 ? jobCopy.getUseNewM...原创 2013-02-19 11:59:54 · 99 阅读 · 0 评论 -
hadoop自定义inputformat源码
hadoop的inputformat包括他的子类reader是maptask读取数据的重要步骤一、获得splits-mapper数1. jobclinet的submitJobInternal,生成split,获取mapper数量 public RunningJob submitJobInternal { return ugi.doAs(new Privileg...原创 2013-02-17 18:14:21 · 88 阅读 · 0 评论 -
hadoop 自定义inputformat和outputformat
hadoop的inputformat和outputformat 最好的例子vertica :虽然是在pig中实现的udf,但是就是hadoop的inputformat和outputformat,在hive里也可以照用,贴个下载的地址:http://blackproof.iteye.com/blog/1791995 再贴一个项目中,在实现hadoop join时,用的inp...原创 2013-02-17 11:44:37 · 77 阅读 · 0 评论 -
hadoop 命令
hadoop 命令hdfs:查看hdfshadoop fs -ls /hadoop fs -lsr /创建目录hadoop fs -mkdir /user/hive删除目录文件hadoop fs -rm /user/hive/filehadoop fs -rmr /user/hive上传文件hadoop fs -put /home/admin/new...原创 2013-02-12 14:20:24 · 85 阅读 · 0 评论 -
hadoop RPC
hadoop RPC 上边是一张hadoop RPC很粗糙的类图,只包含其中主要的类关系 hadoop RPC的总架构是 Client端使用的是阻塞的Socket, Client的Connection内部类负责Socket的操作 setupIOStream方法建立socket连接 sendPara...原创 2013-01-23 15:47:07 · 84 阅读 · 0 评论 -
hadoop与eclipse
个人笔记:(需要懂点java和用过点eclipse的) 配置完hadoop分布式环境,就要做eclipse开发了 1.配置eclipse的map/reduce比较简单 2.先现在插件,放到eclipse中 3.配置hadoop目录 4.在配置Location 碰到的错误:1 unknown host -- 想必大家都是在window下开发的 需要...原创 2012-10-17 10:17:15 · 80 阅读 · 0 评论 -
hadoop hdfs读写
hadoop hdfs读写 hdfs读取文件1.FSDataInputStream,open创建输入流,建立与nameNode的连接2.调用getBlockLoction获得hdfs文件的数据块位置3.FSDataInputStream, read根据数据块位置,建立与datanode的连接,读取数据块4.在读取到数据块末端的时候,关闭与datanode的连接5.重...原创 2014-07-20 14:04:59 · 100 阅读 · 0 评论 -
hadoop secondnamenode配置
一、secondnamenode是做什么的 The Secondary Namenode is a helper to the primary Namenode. The Secondary is responsible for supporting periodic checkpoints of the HDFS metadata. The current des...原创 2014-02-28 20:26:45 · 219 阅读 · 0 评论 -
hadoop 工作流程 图
hadoop工作流程,用两张简单的map, reduce图来解释一下,主要集中讲述hadoop shuffle map阶段 reduce阶段:2014-03-09 22:59:27 · 154 阅读 · 0 评论 -
protocal buffers入门实例
hadoop yarn中新的系列化protocol buffers1.安装protoc,附件里是win,llinux的文件,win配置下环境变量,或是linux下configure make make install2.写protoc文件person.protopackage tutorial;option java_package="";//包名option java_o...2014-09-22 21:08:18 · 101 阅读 · 0 评论 -
hadoop MultipleOutputs规定多文件名
在map或reduce中1.初始化在configure或setup方法中MultipleOutputs.addMultiNamedOutput(conf, "prefix", TextOutputFormat.class, Text.class, Text.class);multipleOutputs = new MultipleOutputs(conf); 2.在mapper或...原创 2014-09-18 20:58:15 · 76 阅读 · 0 评论 -
Maven搭建hadoop环境报Missing artifact jdk.tools:jdk.tools:jar:1.6
转http://blog.csdn.net/honglei915/article/details/38087959Maven引入Hadoop依赖报错:Missing artifact jdk.tools:jdk.tools:jar:1.6 [html] view plaincopy <dependency> <groupId...原创 2014-08-20 16:31:02 · 108 阅读 · 0 评论