2013年03月_小于号yyds

12月 05月 04月 03月

原创 Hadoop中Mapper和Reducer是单独进程还是线程

hadoop一个节点默认起两个map slot，请问这两个slot是多线程吗？hadoop-0.21.0 源码中是这样的：首先看看 org.apache.hadoop.mapred.TaskTracker 类：两个类变量 maxMapSlots 和 maxReduceSlots：maxMapSlots = conf.getInt(TT_MAP_SLOTS, 2);maxRedu

2013-03-31 22:16:36 2890

原创一、迭代式mapreduce（顺序链接）

场景：一些复杂的任务难以用一次mapreduce处理完成，需要多次mapreduce才能完成任务。如在日志解析系统中，会分为拆分、session_id,、上下文三个job。在map/reduce迭代过程中，思想还是比较简单，就像类似for循环一样，前一个mapreduce的输出结果，作为下一个mapreduce的输入，任务完成后中间结果都可以删除。如代码：Confi

2013-03-29 01:19:29 2673 1

原创 HDFS --访问(二)

Hdfs的访问方式有两种，第一：类似linux命令，hadoop shell。第二：java API方式。来看第二种。第二种和第一种完成的功能是一样的，直接上代码，里面一些注释的，在测试时自行打开测试即可。package com.wmg.data.join2;import java.io.IOException;import org.apache.hadoo

2013-03-24 07:32:46 2116

原创 HDFS --访问(一)

Hdfs的访问方式有两种，第一：类似linux命令，hadoop shell。第二：java API方式。先看第一种。FS Shell catchgrpchmodchowncopyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm

2013-03-24 07:25:29 18354

翻译详解MapReduce工作流程

一、客户端向JobTracker提交作业这个阶段要完成以下工作：向JobTracker申请一下新的JobID检查是否指定了output dir，并且确认output dir不存在根据InputPath计算input split。这里的input split并不是MapReduce输入数据的完整拷贝，只是记录了每个split在什么地方存放着。split和block一样都是逻辑概念，

2013-03-24 06:25:58 2547 1

转载解决Solr对Mysql做数据导入时内存溢出的问题

转载自：http://blog.csdn.net/yuwenruli/article/details/8426940近日在对Mysql数据做索引的时候，由于数据量太大（百万级），所以在索引过程中经常会内存溢出，在网上上找了不少解决的办法都没有效果，BatchSize不起作用，应该是Mysql不支持Batch操作。搞的非常恼火，觉得Solr怎么对这么常见的问题都没有解决办法，实在不行就只能通过手

2013-03-24 02:20:45 8067