hadoop
tylgoodluck
这个作者很懒,什么都没留下…
展开
-
Hadoop -- 安装部署
<br />本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。<br /><br />硬件环境<br />共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0。IP配置如下:<br />dbrg-1:202.197.18.72<br />dbrg-2:202.197.18.73<br />dbrg-3:202.197.18.74<br />这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确解析。<br />一个很转载 2011-05-17 20:51:00 · 399 阅读 · 0 评论 -
namenode 内部关键数据结构简介
转自http://blog.csdn.net/zyj8170/article/details/70298921 概述 本文档目的在于对namenode中各种关键的数据结构进行剖析和解释,以方便更好的对namenode的各种处理逻辑和代码结构进行理解。其中包 括对namenode中Namenode和FSNameSystem的程序代码结构,FSDirectory,BlocksMap, Corr转载 2012-03-07 21:14:34 · 562 阅读 · 0 评论 -
lzo的安装及在hadoop中的配置 .
转自 http://blog.csdn.net/zyj8170/article/details/6598082一、前提1、gcc的安装:yum install lib* glibc* gcc* 如果lzo编译出错时可能需要安装2、ant的安装:安装略,最好1.8.2及以上版本,并设置好环境变量 在第三步需要用到ant二、lzo的安装wget http://www转载 2012-03-07 21:11:21 · 2142 阅读 · 0 评论 -
hadoop FAQ
转自 http://blog.csdn.net/zyj8170/article/details/60379341:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲转载 2012-03-07 21:04:27 · 744 阅读 · 0 评论 -
hadoop使用lzo压缩文件笔记 (CDH3u1)
hadoop使用lzo压缩文件笔记 (CDH3u1) 转自http://heipark.iteye.com/blog/1172759 博客分类:hadoopLZO性能CompressionFileSize (GB)Compression Time (s)Decompression Time (s)Nonesome_l转载 2011-12-09 12:53:25 · 865 阅读 · 0 评论 -
Map/Reduce中Join查询实现
本文转自 http://bbs.hadoopor.com/thread-2146-1-1.htmlMap/Reduce中Join查询实现一、背景早在8月份的时候,我就做了一些MR的Join查询,但是发现回北京之后,2个月不用,居然有点生疏,所以今天早上又花时间好好看了一下,顺便写下这个文档,以供以后查阅。二、环境JDK 1.6、Linux操作系统、hadoo转载 2011-12-08 13:05:01 · 669 阅读 · 0 评论 -
Hadoop Map/Reduce教程
Hadoop Map/Reduce教程目的 先决条件 概述 输入与输出 例子:WordCount v1.0源代码 用法 解释 Map/Reduce - 用户界面核心功能描述Mapper Reducer Partitioner Reporter OutputCollector 作业配置 任务的执行和环境作业的提交与监控作业的控制 作业的输入转载 2011-12-06 10:06:54 · 817 阅读 · 0 评论 -
hadoop的reducer输出多个文件
转自:http://coderplay.iteye.com/blog/191188hadoop的reducer输出多个文件 有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValu转载 2011-12-05 13:05:47 · 897 阅读 · 0 评论 -
SSH 无密码连接问题
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys在root下使用,可以不用密码登录了,但是在其他用户处理后,提示还是需要密码 这个是权限问题 chmod 600 authorized_keys 便可原创 2011-11-24 08:44:30 · 535 阅读 · 0 评论 -
hadoop 两表join处理方法
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.转载 2011-11-17 09:36:27 · 933 阅读 · 0 评论 -
基于mapreduce的 Hadoop join 实现分析(二)
基于mapreduce的Hadoop join实现分析(二)标签: hadoop mapreduce join 2009-11-22 17:00上次我们讨论了基于mapreduce的join的实现,在上次讨论的最后,我们对这个实现进行了总结,最主要的问题就是实现的可扩展性,由于在reduce端我们通过一个List数据结构保存了所有的某个外键的对应的所转载 2011-11-17 09:46:44 · 648 阅读 · 0 评论 -
基于mapreduce的Hadoop join实现分析(一)
基于mapreduce的Hadoop join实现分析(一) 对于一个大数据的分析应用,join是必不可少的一项功能.现在很多构建与hadoop之上的应用,如Hive,PIG等在其内部实现了join程序,可以通过很简单的sql语句或者数据操控脚本完成相应的Join工作.那么join应该如何实现呢?今天我们就对join做一个简单的实现.我们来看一个例子,现在有两组数据:一转载 2011-11-17 09:44:33 · 703 阅读 · 0 评论 -
hadoop IPC/RPC 机制
在分布式应用程序中使用Hadoop IPC/RPC原文地址:http://www.supermind.org/blog/520/using-hadoop-ipcrpc-for-distributed-applications本文来自于:http://gpcuster.cnblogs.com译文:关于Hadoop IPC我们一起来了解Hadoop IPC,这是一个内进程间通信(I转载 2011-11-16 22:21:17 · 1373 阅读 · 0 评论 -
深入剖析Hadoop程序日志
深入剖析Hadoop程序日志 前提本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com了解log4j的使用。 正文本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com*.log日志文件和*.out日志文件进入我们的Hadoop_LOG目录,我们可以看到如下文件: 在启动转载 2011-11-16 22:17:42 · 497 阅读 · 0 评论 -
hadoop 并发编程
转自 http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html 分析 WordCount 程序 我们先来看看 Hadoop 自带的示例程序 WordCount,这个程序用于统计一批文本文件中单词出现的频率,完整的代码可在下载的 Hadoop 安装包中得到(在 src/examples 目录中)。转载 2011-11-16 21:56:09 · 2032 阅读 · 0 评论 -
hive 查询错误
hive> select * from test;FAILED: Hive Internal Error: java.lang.RuntimeException(Error while making MR scratch directory - check filesyste原创 2011-10-15 17:26:23 · 1212 阅读 · 0 评论 -
hadoop 介绍
<br />这里先大致介绍一下Hadoop.<br /> 本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。<br /> 言归正传,先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到Lucene和Nutch。首先,Lucene并不是一个应用程序,而是提供了一个纯Java的高性能全文索转载 2011-05-17 20:43:00 · 329 阅读 · 0 评论 -
脱离Hadoop的环境下使用Lzo
脱离Hadoop的环境下使用Lzo 转自http://heipark.iteye.com/blog/1605721 hadoop lzo动机:希望通过Java API将日志行压缩到lzo文件,然后上传到HDFS。因为kevinweil-hadoop-lzo提供了LzopOutpuStream,所以这一切很容易实现,需要注意的是该jar包依赖native code和lzo本身。转载 2012-07-24 16:34:42 · 878 阅读 · 0 评论