Hadoop
文章平均质量分 73
amaowolf
这个作者很懒,什么都没留下…
展开
-
Hadoop集群安装 (2) 配置conf/core-site.xml
1.配置NameNode [hadoop@node14 conf]$ cat core-site.xml fs.default.name hdfs://node14:9000原创 2012-01-09 16:43:18 · 7424 阅读 · 0 评论 -
编写MaxTemperature测试用例
(1) 源代码package cn.edu.xjtu.temperature;import java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.原创 2012-05-07 09:29:49 · 1760 阅读 · 0 评论 -
TaskTracker节点心跳监控配置
1. 可以配置TaskTracker,让其周期性的执行脚本以报告其自身的"healthy or not". (1)TaskTracker周期性的执行脚本,检查输出是否含有“ERROR”,若是,该节点的状态被报告为"unhealthy",JobTracker将该TaskTracker节点设为black-listed,并且不再会给该节点分配任务。 (2) TaskTracker原创 2012-04-23 17:15:03 · 1552 阅读 · 0 评论 -
Task Controllers配置
1. hadoop 提供了对map任务或者task任务进行control的类。 例如,在默认情况下,以task tracker用户对任务进行执行;然而,有些应用要求以作业提交者身份来执行任务(这就要求在每个task tracker创建用户)。2. 在conf/mapred-site.xml中设置 mapreduce.tasktracker.t原创 2012-02-15 17:30:53 · 568 阅读 · 0 评论 -
reserved
sss原创 2012-05-10 10:11:40 · 593 阅读 · 0 评论 -
hadoop archive
1. HDFS对大量小文件的缺点通常,HDFS (hdfs://node14:9000/user/hadoop/inputDir) 的文件以block方式存放,block的metadata被放在NameNode的内存中. 这样,a large number of samll files can eat up a lot of memory on the NameNode2.Hadoop A原创 2012-05-10 10:41:53 · 6124 阅读 · 1 评论 -
百度高级架构师马如悦:我的Hadoop 2.0
当计算任务越来越多,作业提交越来越多,企业普通的做法是,在原有的系统架构上,不停地往上堆积硬件或者加服务器。的确,hadoop设计上的优秀和可扩展性可以方便的让集群管理员对集群增删机器,所以当集群计算资源紧缺,又有空闲的机器可用时,集群管理员很容易想到给集群加机器来解决这个问题,因为集群的计算槽位增多了,Jobtracker能调度的槽位也多了,集群里能并行的map数和reduce数也增多了。但转载 2011-12-06 10:01:51 · 1647 阅读 · 0 评论 -
Why use HDFS over Lustre and / or GPFS?
Apache Hadoop: Why use HDFS over Lustre and / or GPFS?Curious to understand what some specific use cases would be for adopting HDFS as a file system over Lustre or GPFS. i.e. what kind o转载 2012-10-18 15:24:26 · 1210 阅读 · 0 评论 -
Hadoop 0.23编译常见错误
0) 要是下面的错误你都碰到了。。说明你开发环境没搞好,用下面这个命令吧。yum groupinstall "Development Libraries"1) 报错: "[ERROR] Failed to execute goal org.codehaus.mojo:make-maven-plugin:1.0-beta-1:autoreconf (autorecon转载 2012-10-29 17:51:47 · 6130 阅读 · 0 评论 -
CentOS上安装Hadoop0.23
0. 能上网是必须的,否则很难。1. 安装java jdk-6u22-linux-i586-rpm.bin ,下载里直接执行。2. 安装c++ ,第5步用的。 yum install gcc-c++3. 下载hadoop 0.23 先装svn yum install subversion s转载 2012-10-29 17:51:06 · 709 阅读 · 0 评论 -
Wordcount测试用例 (1)
1. 代码package cn.edu.xjtu.wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hado原创 2012-05-07 12:07:54 · 2163 阅读 · 0 评论 -
Hadoop集群安装 (3) 配置conf/hdfs-site.xml
1. 配置NameNode和DataNode的目录 ()说明:配置dfs.name.dir 和 dfs.data.dir dfs.namenode.name.dir file://${hadoop.tmp.dir}/dfs/name Determines where on the local filesystem the DFS name node shoul原创 2012-01-09 16:50:27 · 12357 阅读 · 0 评论 -
Hadoop集群安装 (4) 配置JobTracker_conf/mapred-site.xml
conf/mapred-site.xml总结:主要配置JobTracker的address,scheduler,queue等。1. 配置JobTracker (必须设置) mapreduce.jobtracker.address node14:9001 jobtracker's address 2. 还有其他可配置项具体见ha原创 2012-01-09 17:04:07 · 12760 阅读 · 0 评论 -
Hadoop集群安装 (5) 配置job queue_conf/mapred-queues.xml
0.总体(0)job queue的设置和scheduler密切相关1) scheduler的配置见 conf/mapred-site.xml中的mapreduce.jobtracker.taskscheduler 2) Fairshare不支持queueFairshare scheduler, implement th原创 2012-01-09 20:51:44 · 4559 阅读 · 0 评论 -
内存配置
1. 必要性Hadoop提供了多个配置参数使得admin和user可以灵活设定内存;有些参数有defaut-value, 有些选项是cluster specific以支持memory-intensive作业。当构建一个cluster时,admin可以先设定一些appropriate default value;其他一些参数设定可根据cluster硬件配置(如任务可获得的物理内存和虚拟内原创 2012-01-09 21:18:10 · 3663 阅读 · 0 评论 -
Hadoop相关网络资源汇总
Hadoop相关网络资源汇总(NOTE: 之前研究过的一些hadoop相关资料,在这里汇总起来,方便他人学习)第一手资源hadoop官方网站hadoop.apache.org最权威的官方资源之一dev.yahoo.hadoophadoop.cn(偶尔有一些有用信息)www.hadoop.org.cn转载 2012-03-12 09:35:22 · 666 阅读 · 0 评论 -
配置logging conf/log4j.properties
mapreduce.jobtracker.jobhistory.location=${HADOOP_LOG_DIR}/historymapreduce.job.userhistorylocation=${mapreduce.output.fileoutputformat.outputdir}/_logs/history/通过命令行查看日志:$ bin/hadoop jo原创 2012-04-24 11:33:46 · 704 阅读 · 0 评论 -
Hadoop集群安装 (1)
1. 机器配置(1) 机器规划master(NameNode, JobTracker) 192.168.100.123 node14 slave1(DataNode, TaskTracker)192.168.100.124 node15slave2(DataNode, TaskTracker)192.168.100.125 node16(2原创 2012-01-09 16:32:43 · 1853 阅读 · 0 评论 -
Hadoop startup vs. shutdown, web portal, jps
1. startup在datanode上执行:$ bin/hadoop namenode -format$ bin/start-dfs.sh //该命令将查看conf/slaves文件获取datanode节点信息,然后启动datanode在jobtracker上执行:bin/start-mapred.sh //该脚本将查看conf/slaves文件获取task原创 2012-04-24 11:58:49 · 835 阅读 · 0 评论 -
HDFS命令行操作
启动后可通过命令行使用hadoop。(1)所有命令 (先将$HADOOP_HOME/bin加入到.bashrc的$PATH变量中)[hadoop@node14 hadoop-0.21.0]$ ll $HADOOP_HOME/bintotal 88-rwxr-xr-x 1 hadoop hadoop 4131 Aug 17 2010 hadoop-rwxr-xr-x 1 hado原创 2012-04-26 17:15:09 · 10746 阅读 · 1 评论 -
Hadoop执行DistributedGrep
(1)拷入数据[hadoop@node14 hadoop-0.21.0]$ hadoop fs -put conf inputDir1(2)启动执行[hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+'原创 2012-04-29 11:22:21 · 1385 阅读 · 0 评论 -
在Eclipse中导入hadoop
0. 准备(1) 需要有gcc、autoconf、automake来编译安装google的protocol buffer(2) http://protobuf.googlecode.com/files/protobuf-2.4.1.tar.gz./configure --prefix=/usr/localmakemake checksudo make install完成原创 2012-10-30 09:59:59 · 4563 阅读 · 1 评论