hadoop_cuilanbo的博客-CSDN博客

hadoop

关注

关注数：文章数：14 文章阅读量：34500 文章收藏量：7

作者: cuilanbo

自己在海量领域混迹有两年了，主要从事与hadoop和hbase相关的工作。没事也会研究研究代码，希望和大家一起分享。如果有问题的话可以加我qq：158646832 ，一起讨论

展开

Partitioner, SortComparator and GroupingComparator in Hadoop

hadoop 0.20.2 api里面，作业被重新定义到了类 org.apache.hadoop.mapreduce.Job。它有3个特别的方法：job.setPartitionerClass(Partitioner p);job.setSortComparatorClass(RawComparator c);job.setGroupingComparatorClass(RawCo

原创 2012-09-12 17:58:31 · 750 阅读 · 0 评论
hadoop1.0.4 map数设置

/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regard

原创 2014-07-15 12:22:31 · 1258 阅读 · 0 评论
hadoop的MR当用MultipleInputs时要获取文件路径方法

hadoop的MR当用MultipleInputs时，要获取文件路径的话比较麻烦，需要如下代码

原创 2014-05-13 16:44:30 · 2685 阅读 · 0 评论
Hadoop＿Map中获取当前spilt文件名

有时候需要在Map类中的map函数中获取当前split所读取的文件名。在旧版mapred下面实现方法如下：// 获得输入文件的路径名String path=((FileSplit)reporter.getInputSplit()).getPath().toString();//使用Reporter reporter对象来获取，在新版mapreduce中，Reporter rep

转载 2014-02-26 16:10:23 · 2961 阅读 · 0 评论
Google 三篇论文---MapReduce

MapReduce:超大机群上的简单数据处理摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并

转载 2013-02-02 11:47:32 · 4122 阅读 · 0 评论
Google三篇论文----GFS

Google文件系统 GFS是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。1、设计概览（1）设计想定 GFS与过去的分布式文件系统有很多相同的目标，但GFS的设计受到了当前及预期的应用方面的工作量及技术环境的驱动，这反映了它与早期的文件系统明显不同的设想。这

转载 2013-02-02 11:49:30 · 3047 阅读 · 0 评论
Hadoop动态添加删除datanode及tasktracker

首先建议datanode和tasktracker分开写独立的exclude文件，因为一个节点即可以同时是datanode和tasktracker，也可以单独是datanode或tasktracker。 1、删除datanode修改namenode上的hdfs-site.xml[plain] view plaincopyprint? dfs.hosts

转载 2013-01-17 17:43:20 · 2659 阅读 · 1 评论
快速全量检索Hbase的核武器---------HfileInputFormat

此博客是转载别人的，方法实现也是别人实现的，在此感谢这位大牛！原博客地址：http://blog.csdn.net/kirayuan/article/details/7794402我对这个实现改了一个小地方，当时是因为本地编译未通过........囧~~~~~import java.io.IOException;import org.apache.hadoop.conf.Con

转载 2012-12-19 10:04:26 · 1824 阅读 · 0 评论
hadoop配置自动清理日志

hadoop集群跑了很多的任务后在hadoop.log.dir目录下会产生大量的日志文件。可以通过配置core-site.xml文件让集群自动清除日志文件： hadoop.logfile.size 10000000 The max size of each log file hadoop.logfile.count 10 The max numb

原创 2013-01-08 17:37:50 · 3333 阅读 · 0 评论
巧用备份数节省hdfs空间

我们最近遇到一个问题，hdfs硬盘空间不足。各位有没有遇到类似的问题呢？仔细分析了一下，发现hdfs下有这样一类文件，留之无大用，弃之可惜。比如说最原始的日志文件........本来留下他是用来做保险的，但是不一定能用的上，并且占据很大空间。想想这样的文件该怎么处理好呢？于是乎诞生了一个想法，把这一类的数据备份数改小，由3改为2，这样能剩下1份的空间。用到了这个命令：ha

原创 2013-01-05 17:35:33 · 1918 阅读 · 0 评论
hadoop中查找输入分片的文件路径

前几天遇到个问题，需要查找hadoop的map函数里输入分片的文件路径。不多废话贴上代码，供大家参考 FileSplit f = (FileSplit)context.getInputSplit(); Path p = f.getPath(); context.write(value, new Text(p.getParent().getN

原创 2012-12-18 10:11:45 · 973 阅读 · 0 评论
Hadoop中NullWritable不能乱用

在hadoop 0.20.2版本中，各位有没有想过为什么wordcount实例， map输出的value不用 NullWritalbe ? 实际上value 其实就起到了一个占位的作用。于是我自作聪明地改写了程序，把map的输出改成了NullWritable，结果发现在shuffle的过程中，并没有达到相同的key合并的效果。具体原因有待进一步查明，愿把这点儿经验和大家一起分享。

原创 2012-12-15 13:04:45 · 7256 阅读 · 0 评论
HBase MapReduce实例分析

跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便，本文将以前面的blog示例，介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解，如果你是初次接触Hadoop MapReduce编程，可以参考http://qa.taobao.com/?p=10523 这篇文章来建立基本概念。HBase Map

转载 2012-09-14 16:20:29 · 853 阅读 · 0 评论
HDFS 上传文件不均衡和Balancer太慢的问题

向HDFS上传文件，如果是从某个datanode开始上传文件，会导致上传的数据优先写满当前datanode的磁盘，这对于运行分布式程序是非常不利的。解决的办法：1、从其他非datanode节点上传可以将hadoop的安装目录复制一份到一个不在集群中的节点（直接从非datanode的namenode上传也可以，但是这样不太好，会增加namenode的负担，并且时间长了会让

转载 2014-12-04 14:46:26 · 872 阅读 · 0 评论

hadoop

作者: cuilanbo

Partitioner, SortComparator and GroupingComparator in Hadoop

hadoop1.0.4 map数设置

hadoop的MR当用MultipleInputs时要获取文件路径方法

Hadoop＿Map中获取当前spilt文件名

Google 三篇论文---MapReduce

Google三篇论文----GFS

Hadoop动态添加删除datanode及tasktracker

快速全量检索Hbase的核武器---------HfileInputFormat

hadoop配置自动清理日志

巧用备份数节省hdfs空间

hadoop中查找输入分片的文件路径

Hadoop中NullWritable不能乱用

HBase MapReduce实例分析

HDFS 上传文件不均衡和Balancer太慢的问题