Hadoop
文章平均质量分 82
cwchenwu88
这个作者很懒,什么都没留下…
展开
-
Hadoop0.23.0初探1---前因后果
最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0),它标志着Hadoop新时代的到来。本文作为系列文章的第一篇,将结合Hadoop-0.20.*的特点,以及Hadoop核心理念,分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性HDFS单NameNode的不足 1)扩展性问题。可以随着数据量进行水平扩展,转载 2011-12-16 17:54:13 · 474 阅读 · 0 评论 -
hadoop 0.20.2在eclipse开发的插件问题
我使用的是eclipse 3.7,开始使用的插件是hadoop-0.20.2文件夹下/contrib下的eclipse插件hadoop-0.20.2-eclipse-plugin.jar,配置完eclipse后,出现了run on hadoop没反应,后来看了网上一篇文章:http://hi.baidu.com/laxinicer/blog/item/fbaddaf58bdae63fbc310原创 2012-03-03 09:38:16 · 3361 阅读 · 4 评论 -
hadoop-0.20.2安装及简单使用
我是初学者,文章只是记录我的学习过程,有很多不足或是错误,请大家谅解并指正,真心希望多和大家交流~安装步骤如下:1.1 机器说明总共有4台机器:sc706-26、sc706-27、sc706-28、sc706-29IP地址分别为:192.168.153.89、192.168.153.90、192.168.153.91、192.168.153.92操作系统为:Linux的fedo转载 2012-03-02 13:42:40 · 992 阅读 · 0 评论 -
Hadoop常见问题及解决办法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/security/limits.con转载 2012-03-01 09:19:29 · 989 阅读 · 0 评论 -
hadoop学习笔记(1) 开发环境
刚开始学习hadoop,首先搭建了一下开发环境,最开始是在单独编写Map-Reduce程序,然后在命令行编译,再通过hadoop命令运行打好的jar包,虽然也能够运行,但是总感觉这样用起来很麻烦,所以今晚又尝试了直接通过eclipse来编辑和运行Map-Reduce程序,瞎弄了一下,居然让我弄成功了,自然走了点弯路,担心以后再走弯路,所以把自己的搭建过程记录于此。1.准备1.1 软件r转载 2012-02-28 15:32:35 · 484 阅读 · 0 评论 -
hadoop学习笔记(2) 伪分布模式配置
前面介绍了linux下hadoop的安装和简单配置,主要是独立模式的配置,所谓独立模式是指不需要运行任何守护进程(daemon),所有程序都再单个JVM上执行,由于在独立模式下测试和调试MapReduce程序较为方便,因此该模式适合用在开发阶段。这里主要记录了本人配置hadoop伪分布模式的过程。所谓伪分布模式是在单机上模拟Hadoop分布式,单机上的分布式并不是真正的分布式,而是使用java转载 2012-02-28 15:31:39 · 505 阅读 · 0 评论 -
Linux(Centos)配置OpenSSH无密码登陆
最近在搭建Hadoop环境需要设置无密码登陆,所谓无密码登陆其实是指通过证书认证的方式登陆,使用一种被称为"公私钥"认证的方式来进行ssh登录。 最近在搭建Hadoop环境需要设置无密码登陆,所谓无密码登陆其实是指通过证书认证的方式登陆,使用一种被称为"公私钥"认证的方式来进行ssh登录。 " 公私钥"认证方式简单的解释:首先在客户端上创建一对公私钥 (公钥文件:~/.ssh/id_r转载 2012-02-28 14:43:58 · 448 阅读 · 0 评论 -
mapreduce网址
http://blog.sina.com.cn/u/1243568575转载 2011-12-16 18:00:39 · 444 阅读 · 0 评论 -
让你的MapReduce SQL引擎加速 ---- Google-Tenzing下的那些Tricks
让你的MapReduceSQL引擎加速 ---- Google-Tenzing下的那些TricksTenzing:在Google-MapReduce计算框架之上实现对SQL的支持,Tenzing是SQL engine forMapReduce framework。Motivation:分布式数据库提供的SQL查询的不足:1)节点扩展的问题2)转载 2011-12-16 17:59:01 · 2847 阅读 · 0 评论 -
Hadoop0.23.0初探4---让你的第一个YARN MapReduce跑起来
前言klose的Hadoop0.23.0初探的系列文章的前三篇分别介绍了:Hadoop的变迁的前因后果、HDFSFederation的配置、以及HDFS的NN、SNN、BN和HA之间的关系。第四篇为文章稍微减负以下,主要介绍Yarn的部署,以及跑第一个HelloWorld(MapReducewordcount)。YARN框架介绍MapReduce跑起来" title="Hadoop0.转载 2011-12-16 17:58:03 · 750 阅读 · 0 评论 -
Hadoop0.23.0初探3---HDFS NN,SNN,BN和HA
前言保证HDFS高可用是Hadoop被推广以来很多技术人员一直关心的问题,通过搜索引擎搜索也可以得到很多的方案。恰逢HDFSFederation出炉,本文将一些涉及到有关NameNode、SecondaryNameNode、BackupNode的含义与区别,以及HDFSHA框架做一个总结。除此之外,文章的最后,将介绍Hadoop-0.23.0如何配置NameNode、SecondaryName转载 2011-12-16 17:57:07 · 716 阅读 · 0 评论 -
Hadoop0.23.0初探2---HDFS Federation部署
Hadoop的目录文件结构:.|-- LICENSE.txt|-- NOTICE.txt|-- README.txt|-- bin|-- conf|-- etc|-- export_hadoop.sh|-- hadoop-0.23.0-gridmix.jar|-- hadoop-0.23.0-streaming.jar|-- hadoop-mapredu转载 2011-12-16 17:55:35 · 327 阅读 · 0 评论 -
Hadoop中Partition解析
1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使用时的上转载 2012-03-19 20:17:10 · 397 阅读 · 0 评论