hadoop
马忠义
梦想一定要有,万一见鬼了呢
展开
-
hadoop2版本和hadoop1版本的第三方jar包的位置问题
今天往集群上提交一个词频分析的程序,一个jar包需要引用程序的另一个jar包中的方法,所以必须把被引用的jar包提前导入hadoop中,在hadoop1.2版本中中,提交的jar放在hadoop的lib下,执行的时候系统会默认到lib下找到jar,应用到hadoop2.5.2上位置变了,今天在这个问题上卡了好久,最后经过尝试,是把引入的包导入到hadoop包下的share包的mr中的lib下,那么当原创 2015-12-12 19:20:49 · 2307 阅读 · 2 评论 -
zookeerper配置
zookeeper 要求必须是奇数台 为什么要使用zookeeper »大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等) »目前,大部分应用需要开发私有的协调程序,缺乏一个通用的机制 »协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器 »ZooKeeper:提供通用的分布式锁服务,用以协调分布式应用 zookeeper能干什么 »Hado原创 2015-12-16 18:50:37 · 6309 阅读 · 0 评论 -
hive的操作
Hive中的表实际上就是hdfs中的文件夹, Hive的表其实就是HDFS的目录/文件,按表名把文件夹分开。如果是分区表,则分区值是子文件夹,可以直接在M/R Job里使用这些数据。 1 Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。 2 创建一个表 以’\t‘划分 create table teacher (id bigint, name strin原创 2015-12-16 18:21:49 · 300 阅读 · 0 评论 -
mapreduce之combiner
每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。 如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。注意:Combiner原创 2015-12-16 18:30:08 · 355 阅读 · 0 评论