hadoop
文章平均质量分 64
randee_luo
爱学习的坏同学
展开
-
Eclipse连接hadoop的配置方法
1,将hadoop-1.0.3-eclipse-plugin.jar(这里一定要跟你的hadoop版本支持的一致) 文件放入liunx 下的hadoop目录及win下的eclipse的plugins目录下, 然后打开eclipse 在windows->open perspective 下可看到Map/Reduce 点击后 可在窗口下方看到Map/Reduce Locations,右键“New Ha原创 2013-09-30 14:21:40 · 1251 阅读 · 0 评论 -
hadoop配置fair-scheduler的方法
hadoop有以下几种调度方法 1,FIFO(先进先出调度器)这种是hadoop默认的调度 2,capacity-scheduler(计算能力调度器) 3,fair-scheduler(公平调度器)。 以下是fair-scheduler的配置方法。 1. 将HADOOP_HOME/contrib/fairscheduler的jar包考入到HADOOP_HOME/lib下 例如:cp $原创 2013-09-30 16:41:21 · 1234 阅读 · 1 评论 -
Hive RCFile的高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据转载 2013-10-14 18:10:58 · 870 阅读 · 0 评论 -
MapReduce的执行过程介绍
对于MapReduce这张图是相当经典的,在网上看到很多谈到MapReduce的执行过程都会用到这张图片,下面我也讲讲自己对它的基础认识。 1,用户向jobclient提交MapReduce job。 2,jobclient向Jobtracker申请一个新的job id(通过调用jobtracker的getnewjobid()获得)。 3,将运行job所需的资源(Jar包,配置文件与计算所得原创 2013-10-15 16:42:11 · 1142 阅读 · 0 评论 -
Hadoop中map数的计算
Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是: goalSize = totalSize / mapred.map.tasks minSize = max {mapred.min.split.size, minSplitSize} splitSize = max (minSize, min(goalSize, dfs.bl转载 2014-01-23 11:42:26 · 667 阅读 · 0 评论