Hadoop BASIC
文章平均质量分 77
posa88
这个作者很懒,什么都没留下…
展开
-
Hadoop全分布安装配置及常见问题
一、初始说明系统:Fedora 15机器:7台,NameNode 1+ SecondaryNameNode 1+ DataNode 5单机配置:1G内存,2 core ,32位,35GB可用硬盘,此配置纯属用于简单实验 Hadoop需要运行在oracle的hotspot JDK上,fedora自带的open-jdk似乎不行使用默认的单机架结构,即所有机子在同一个机架 二、软件包准备原创 2012-07-20 22:47:52 · 2016 阅读 · 0 评论 -
使用MultipleOutputs遇到的问题小记
1、org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create file /user/bjdata/user/wuyb/semv/SemAAJob_3/calsigma/_temporary/_attempt_2013062原创 2013-08-12 20:17:35 · 3038 阅读 · 0 评论 -
使用MultipleInputs出现InstantiationException
Exception in thread "main" java.lang.RuntimeException: java.lang.InstantiationExceptionat org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:115)at com.mediav.hadoop.mapreduce原创 2013-07-04 11:44:33 · 3508 阅读 · 2 评论 -
mapreduce编程(一):输入文件的过滤
描述:dir/目录下存储了系统每一天的出现的cookie,各天的cookie分别存放在各自的dir/time目录下,如2012-12-21日的cookie存放在dir/2012-12-21目录下。 dir/2012-12-21下的各个文件存储的是出现的cookie,一个cookie的多次出现会记录多次(也就是有重复),dir/2012-12-21下的文件名为prefix-tag-suffix原创 2013-01-18 11:55:37 · 3200 阅读 · 0 评论 -
MapReduce程序的测试--MRUnit
实在没什么空,好长时间没有写Blog,心虚,没有去参加校园招聘的人伤不起~ MRUnit是一个开源的MapReduce程序测试框架,使用MRUnit,可以在单元测试的时候不用每次都上集群跑一遍,提高测试效率。 MRUnit官网:http://mrunit.apache.org/ 注意,当你第一次使用的时候,发现出现问题解决不了,看看换个版本能行不[它现在有hadoop1、hado原创 2012-10-31 00:38:46 · 2930 阅读 · 1 评论 -
关系型MapReduce模式:选择、分组和组内排序
”纸上得来终觉浅,绝知此事要躬行“,MapReduce还是要多练习的。 现有一学生成绩数据,格式如下: // 假设的取值类型和范围:原创 2012-08-11 10:06:11 · 3547 阅读 · 1 评论 -
使用hadoop的datajoin包进行关系型join操作
datajoin包在hadoop的contrib目录下,我们也可以在src下面看见其源码,它的源码很小,我建议大体看看以了解其原理。利用datajoin进行join操作,在《Hadoop in action》里面已经讲的十分清楚,在这里只提及值得注意的几个地方。TaggedMapOutput的目的是标识数据,让我们知道哪个记录是从哪里来的。DataJoinMapperBase类中的ge原创 2012-08-15 21:01:55 · 2837 阅读 · 5 评论 -
[MapReduce编程]用MapReduce大刀砍掉海量数据离线处理问题。
今日在CSDN看再次遇见July的这篇博文:教你如何迅速秒杀掉:99%的海量数据处理面试题。这篇文章我之前是拜读过的,今天闲来没事,就想拿来当做MapReduce的练习。MapReduce这把刀太大,刀大了问题就抵不住这刀锋了,事实上一开始我想着,这么多些题目,当是要花不少功夫的,但当我做完一题继续看下面的题目的时候,才发现这些题目在MapReduce模型下显得大同小异了,看来拿大刀的人是原创 2012-08-16 21:02:04 · 2727 阅读 · 0 评论 -
[Hadoop]使用DistributedCache进行复制联结
使用DistributedCache有一个前提,就是进行联结的数据有一个足够小,可以装入内存中。注意我们可以从代码中看出它是如何被装入内存中的,因此,我们也可以在装入的过程中进行过滤。但是值得指出的是,如果文件很大,那么装入内存中也是很费时的。DistributedCache的原理是将小的那个文件复制到所有节点上。我们使用DistributedCache.addCacheFile()来原创 2012-08-15 21:35:48 · 3469 阅读 · 0 评论 -
java.io.IOException: File /home/hadoop/mapred/system/jobtracker.info could only be replicated to 0 n
我又再次在关闭hadoop前format了,然后又出现这个错误。java.io.IOException: File /home/hadoop/mapred/system/jobtracker.info could only be replicated to 0 nodes, instead of 1at org.apache.hadoop.hdfs.server.namenode.原创 2012-08-15 20:12:03 · 3393 阅读 · 0 评论 -
用eclipse编写mapreduce程序
自己的博客好像要过期了,把一些还有用的东西搬过来避难~首先,下载插件这是另一个插件,你可以看看。然后,放到eclipse/plugin下,我是fedora系统,我放在了/usr/lib/eclipse/plugins下。然后把插件重命名为:hadoop-eclipse-plugin-1.0.0.jar,我的eclipse版本:Eclipse PlatformVe原创 2012-08-15 19:36:32 · 2260 阅读 · 0 评论 -
Filesystem closed
java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java:232) at org.apache.hadoop.hdfs.DFSClient.access$600(DFSClient.java:70) at org.apache.hadoop.hdfs.原创 2014-11-11 20:58:35 · 3789 阅读 · 0 评论