mapreduce开发
Z-Calar
这个作者很懒,什么都没留下…
展开
-
hdfs下载文件到本地
import java.io.FileOutputStream;import java.io.OutputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apach转载 2015-09-17 17:27:58 · 4909 阅读 · 0 评论 -
DataNode引用计数磁盘选择策略
前言在HDFS中,所有的数据都是存在各个DataNode上的.而这些DataNode上的数据都是存放于节点机器上的各个目录中的,而一般每个目录我们会对应到1个独立的盘,以便我们把机器的存储空间基本用上.这么多的节点,这么多块盘,HDFS在进行写操作时如何进行有效的磁盘选择呢,选择不当必然造成写性能下降,从而影响集群整体的性能.本文来讨论一下目前HDFS中存在的几个磁盘选择策略的特点和不转载 2016-01-20 11:54:58 · 591 阅读 · 0 评论 -
job.waitForCompletion(true)空指针问题
hadoop2.x在windows下编译缺少winutils.exe,需要重新下载一个并且编译hadoop_home环境变量。在system32文件夹下添加hadoop.dll文件。问题解决!原创 2015-09-16 15:41:42 · 8426 阅读 · 0 评论 -
Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, received org.apache.hadoo
Error: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, received org.apache.hadoop.io.Text解决问题:在的map(), reduce()前面加上@Override,eclipse自动生成map(),原创 2015-09-17 10:40:52 · 2365 阅读 · 0 评论 -
Hadoop Map Reduce 限制counter的默认数量120
最近用Hadoop统计将近一亿行的数据,由于每一行的列再加上Overall的统计 counter数量超过了120,故在Hadoop的运行过程中,抛出如下异常:[java] view plaincopyprint?org.apache.hadoop.mapreduce.counters.LimitExceededException: Too m转载 2016-01-18 11:22:04 · 1648 阅读 · 1 评论 -
hadoop中的一次集群任务执行超时问题查找过程
本次进行一个项目的重构,在某些活动数据量比较大的情况下,会偶尔出现1200s超时的情况,如下: AttemptID:attempt_1410771599055_11709_m_000033_0 Timed out after 1200 secs 而hadoop会不断启动备份任务进行重试,重试也许成功,但失败的概率还是比较大: 经过分析,hadoop的任转载 2016-01-18 09:59:28 · 411 阅读 · 0 评论 -
MapReduce程序获取文件名
在maper类中Path path = ((FileSplit) context.getInputSplit()).getPath() .getParent(); String fileName = path.getParent().toString();引用类为 import org.apache.hadoop.fs.Path;import org.apache.原创 2015-12-29 13:35:45 · 1102 阅读 · 0 评论 -
MapReduce多文件输出和获取驱动类传值
前言 刚接触到mapreduce程序的人可能不太熟悉,今天翻出来了好久之前写的一段代码,贴到博客上吧,希望对新手有所帮助。欢迎一起讨论,共同进步。MapReduce多文件输出代码如下public class ReduceLiantongBushuju extends Reducer{private static Text textValue = new Text();p原创 2015-12-29 13:21:31 · 369 阅读 · 0 评论 -
mapreduce在控制台打印log4j日志
log4j.properties配置如下:log4j.rootLogger=INFO, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.原创 2015-09-17 10:37:11 · 3132 阅读 · 0 评论 -
mapreduce程序加队列两种方式
Job job = new Job(conf, "wordcount");job.getConfiguration().set(Job.QUEUE_NAME, args[2]);job.getConfiguration().set("mapreduce.job.queuename", args[2]);原创 2016-02-03 11:06:05 · 2020 阅读 · 0 评论