hadoop
cuilanbo
自己在海量领域混迹有两年了,主要从事与hadoop和hbase相关的工作。没事也会研究研究代码,希望和大家一起分享。如果有问题的话可以加我qq:158646832 , 一起讨论
展开
-
Partitioner, SortComparator and GroupingComparator in Hadoop
hadoop 0.20.2 api里面,作业被重新定义到了类 org.apache.hadoop.mapreduce.Job。它有3个特别的方法:job.setPartitionerClass(Partitioner p);job.setSortComparatorClass(RawComparator c);job.setGroupingComparatorClass(RawCo原创 2012-09-12 17:58:31 · 750 阅读 · 0 评论 -
hadoop1.0.4 map数设置
/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regard原创 2014-07-15 12:22:31 · 1258 阅读 · 0 评论 -
hadoop的MR当用MultipleInputs时要获取文件路径方法
hadoop的MR当用MultipleInputs时,要获取文件路径的话比较麻烦,需要如下代码原创 2014-05-13 16:44:30 · 2685 阅读 · 0 评论 -
Hadoop_Map中获取当前spilt文件名
有时候需要在Map类中的map函数中获取当前split所读取的文件名。在旧版mapred下面实现方法如下:// 获得输入文件的路径名String path=((FileSplit)reporter.getInputSplit()).getPath().toString();//使用Reporter reporter对象来获取,在新版mapreduce中,Reporter rep转载 2014-02-26 16:10:23 · 2961 阅读 · 0 评论 -
Google 三篇论文---MapReduce
MapReduce:超大机群上的简单数据处理摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并转载 2013-02-02 11:47:32 · 4122 阅读 · 0 评论 -
Google三篇论文----GFS
Google文件系统 GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。1、设计概览 (1)设计想定 GFS与过去的分布式文件系统有很多相同的目标,但GFS的设计受到了当前及预期的应用方面的工作量及技术环境的驱动,这反映了它与早期的文件系统明显不同的设想。这转载 2013-02-02 11:49:30 · 3047 阅读 · 0 评论 -
Hadoop动态添加删除datanode及tasktracker
首先建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。 1、删除datanode修改namenode上的hdfs-site.xml[plain] view plaincopyprint? dfs.hosts转载 2013-01-17 17:43:20 · 2659 阅读 · 1 评论 -
快速全量检索Hbase的核武器---------HfileInputFormat
此博客是转载别人的,方法实现也是别人实现的,在此感谢这位大牛!原博客地址:http://blog.csdn.net/kirayuan/article/details/7794402我对这个实现改了一个小地方,当时是因为本地编译未通过........囧~~~~~import java.io.IOException;import org.apache.hadoop.conf.Con转载 2012-12-19 10:04:26 · 1824 阅读 · 0 评论 -
hadoop配置自动清理日志
hadoop集群跑了很多的任务后在hadoop.log.dir目录下会产生大量的日志文件。可以通过配置core-site.xml文件让集群自动清除日志文件: hadoop.logfile.size 10000000 The max size of each log file hadoop.logfile.count 10 The max numb原创 2013-01-08 17:37:50 · 3333 阅读 · 0 评论 -
巧用备份数节省hdfs空间
我们最近遇到一个问题,hdfs硬盘空间不足。各位有没有遇到类似的问题呢?仔细分析了一下,发现hdfs下有这样一类文件,留之无大用,弃之可惜。比如说最原始的日志文件........本来留下他是用来做保险的,但是不一定能用的上,并且占据很大空间。想想这样的文件该怎么处理好呢?于是乎 诞生了一个想法,把这一类的数据备份数改小,由3改为2,这样能剩下1份的空间。用到了这个命令:ha原创 2013-01-05 17:35:33 · 1918 阅读 · 0 评论 -
hadoop中查找输入分片的文件路径
前几天遇到个问题,需要查找hadoop的map函数里输入分片的文件路径。 不多废话贴上代码,供大家参考 FileSplit f = (FileSplit)context.getInputSplit(); Path p = f.getPath(); context.write(value, new Text(p.getParent().getN原创 2012-12-18 10:11:45 · 973 阅读 · 0 评论 -
Hadoop中NullWritable不能乱用
在hadoop 0.20.2版本中,各位有没有想过为什么wordcount实例 , map输出的value不用 NullWritalbe ? 实际上value 其实就起到了一个占位的作用。于是我自作聪明地改写了程序,把map的输出改成了NullWritable,结果发现在shuffle的过程中,并没有达到相同的key合并的效果。具体原因有待进一步查明,愿把这点儿经验和大家一起分享。原创 2012-12-15 13:04:45 · 7256 阅读 · 0 评论 -
HBase MapReduce实例分析
跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解,如果你是初次接触Hadoop MapReduce编程,可以参考http://qa.taobao.com/?p=10523 这篇文章来建立基本概念。HBase Map转载 2012-09-14 16:20:29 · 853 阅读 · 0 评论 -
HDFS 上传文件不均衡和Balancer太慢的问题
向HDFS上传文件,如果是从某个datanode开始上传文件,会导致上传的数据优先写满当前datanode的磁盘,这对于运行分布式程序是非常不利的。解决的办法:1、从其他非datanode节点上传可以将hadoop的安装目录复制一份到一个不在集群中的节点(直接从非datanode的namenode上传也可以,但是这样不太好,会增加namenode的负担,并且时间长了会让转载 2014-12-04 14:46:26 · 872 阅读 · 0 评论