![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 73
amaowolf
这个作者很懒,什么都没留下…
展开
-
Hadoop集群安装 (2) 配置conf/core-site.xml
1.配置NameNode [hadoop@node14 conf]$ cat core-site.xml fs.default.name hdfs://node14:9000原创 2012-01-09 16:43:18 · 7397 阅读 · 0 评论 -
编写MaxTemperature测试用例
(1) 源代码 package cn.edu.xjtu.temperature; import java.io.IOException; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.原创 2012-05-07 09:29:49 · 1754 阅读 · 0 评论 -
TaskTracker节点心跳监控配置
1. 可以配置TaskTracker,让其周期性的执行脚本以报告其自身的"healthy or not". (1)TaskTracker周期性的执行脚本,检查输出是否含有“ERROR”,若是,该节点的状态被报告为"unhealthy",JobTracker将该TaskTracker节点设为black-listed,并且不再会给该节点分配任务。 (2) TaskTracker原创 2012-04-23 17:15:03 · 1547 阅读 · 0 评论 -
Task Controllers配置
1. hadoop 提供了对map任务或者task任务进行control的类。 例如,在默认情况下,以task tracker用户对任务进行执行;然而,有些应用要求以作业提交者身份来执行任务(这就要求在每个task tracker创建用户)。 2. 在conf/mapred-site.xml中设置 mapreduce.tasktracker.t原创 2012-02-15 17:30:53 · 563 阅读 · 0 评论 -
reserved
sss原创 2012-05-10 10:11:40 · 571 阅读 · 0 评论 -
hadoop archive
1. HDFS对大量小文件的缺点 通常,HDFS (hdfs://node14:9000/user/hadoop/inputDir) 的文件以block方式存放,block的metadata被放在NameNode的内存中. 这样,a large number of samll files can eat up a lot of memory on the NameNode 2.Hadoop A原创 2012-05-10 10:41:53 · 6098 阅读 · 1 评论 -
百度高级架构师马如悦:我的Hadoop 2.0
当计算任务越来越多,作业提交越来越多,企业普通的做法是,在原有的系统架构上,不停地往上堆积硬件或者加服务器。的确,hadoop设计上的优秀和可扩展性可以方便的让集群管理员对集群增删机器,所以当集群计算资源紧缺,又有空闲的机器可用时,集群管理员很容易想到给集群加机器来解决这个问题,因为集群的计算槽位增多了,Jobtracker能调度的槽位也多了,集群里能并行的map数和reduce数也增多了。 但转载 2011-12-06 10:01:51 · 1631 阅读 · 0 评论 -
Why use HDFS over Lustre and / or GPFS?
Apache Hadoop: Why use HDFS over Lustre and / or GPFS? Curious to understand what some specific use cases would be for adopting HDFS as a file system over Lustre or GPFS. i.e. what kind o转载 2012-10-18 15:24:26 · 1202 阅读 · 0 评论 -
Hadoop 0.23编译常见错误
0) 要是下面的错误你都碰到了。。说明你开发环境没搞好,用下面这个命令吧。 yum groupinstall "Development Libraries" 1) 报错: "[ERROR] Failed to execute goal org.codehaus.mojo:make-maven-plugin:1.0-beta-1:autoreconf (autorecon转载 2012-10-29 17:51:47 · 6099 阅读 · 0 评论 -
CentOS上安装Hadoop0.23
0. 能上网是必须的,否则很难。 1. 安装java jdk-6u22-linux-i586-rpm.bin ,下载里直接执行。 2. 安装c++ ,第5步用的。 yum install gcc-c++ 3. 下载hadoop 0.23 先装svn yum install subversion s转载 2012-10-29 17:51:06 · 703 阅读 · 0 评论 -
Wordcount测试用例 (1)
1. 代码 package cn.edu.xjtu.wordcount; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hado原创 2012-05-07 12:07:54 · 2158 阅读 · 0 评论 -
Hadoop集群安装 (3) 配置conf/hdfs-site.xml
1. 配置NameNode和DataNode的目录 () 说明:配置dfs.name.dir 和 dfs.data.dir dfs.namenode.name.dir file://${hadoop.tmp.dir}/dfs/name Determines where on the local filesystem the DFS name node shoul原创 2012-01-09 16:50:27 · 12328 阅读 · 0 评论 -
Hadoop集群安装 (4) 配置JobTracker_conf/mapred-site.xml
conf/mapred-site.xml 总结:主要配置JobTracker的address,scheduler,queue等。 1. 配置JobTracker (必须设置) mapreduce.jobtracker.address node14:9001 jobtracker's address 2. 还有其他可配置项 具体见ha原创 2012-01-09 17:04:07 · 12723 阅读 · 0 评论 -
Hadoop集群安装 (5) 配置job queue_conf/mapred-queues.xml
0.总体 (0)job queue的设置和scheduler密切相关 1) scheduler的配置见 conf/mapred-site.xml中的mapreduce.jobtracker.taskscheduler 2) Fairshare不支持queue Fairshare scheduler, implement th原创 2012-01-09 20:51:44 · 4551 阅读 · 0 评论 -
内存配置
1. 必要性 Hadoop提供了多个配置参数使得admin和user可以灵活设定内存;有些参数有defaut-value, 有些选项是cluster specific以支持memory-intensive作业。 当构建一个cluster时,admin可以先设定一些appropriate default value;其他一些参数设定可根据cluster硬件配置(如任务可获得的物理内存和虚拟内原创 2012-01-09 21:18:10 · 3650 阅读 · 0 评论 -
Hadoop相关网络资源汇总
Hadoop相关网络资源汇总 (NOTE: 之前研究过的一些hadoop相关资料,在这里汇总起来,方便他人学习) 第一手资源 hadoop官方网站 hadoop.apache.org 最权威的官方资源之一 dev.yahoo.hadoop hadoop.cn(偶尔有一些有用信息) www.hadoop.org.cn转载 2012-03-12 09:35:22 · 662 阅读 · 0 评论 -
配置logging conf/log4j.properties
mapreduce.jobtracker.jobhistory.location=${HADOOP_LOG_DIR}/history mapreduce.job.userhistorylocation=${mapreduce.output.fileoutputformat.outputdir}/_logs/history/ 通过命令行查看日志: $ bin/hadoop jo原创 2012-04-24 11:33:46 · 697 阅读 · 0 评论 -
Hadoop集群安装 (1)
1. 机器配置 (1) 机器规划 master(NameNode, JobTracker) 192.168.100.123 node14 slave1(DataNode, TaskTracker)192.168.100.124 node15 slave2(DataNode, TaskTracker)192.168.100.125 node16 (2原创 2012-01-09 16:32:43 · 1828 阅读 · 0 评论 -
Hadoop startup vs. shutdown, web portal, jps
1. startup 在datanode上执行: $ bin/hadoop namenode -format $ bin/start-dfs.sh //该命令将查看conf/slaves文件获取datanode节点信息,然后启动datanode 在jobtracker上执行: bin/start-mapred.sh //该脚本将查看conf/slaves文件获取task原创 2012-04-24 11:58:49 · 831 阅读 · 0 评论 -
HDFS命令行操作
启动后可通过命令行使用hadoop。 (1)所有命令 (先将$HADOOP_HOME/bin加入到.bashrc的$PATH变量中) [hadoop@node14 hadoop-0.21.0]$ ll $HADOOP_HOME/bin total 88 -rwxr-xr-x 1 hadoop hadoop 4131 Aug 17 2010 hadoop -rwxr-xr-x 1 hado原创 2012-04-26 17:15:09 · 10735 阅读 · 1 评论 -
Hadoop执行DistributedGrep
(1)拷入数据 [hadoop@node14 hadoop-0.21.0]$ hadoop fs -put conf inputDir1 (2)启动执行 [hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+'原创 2012-04-29 11:22:21 · 1374 阅读 · 0 评论 -
在Eclipse中导入hadoop
0. 准备 (1) 需要有gcc、autoconf、automake来编译安装google的protocol buffer (2) http://protobuf.googlecode.com/files/protobuf-2.4.1.tar.gz ./configure --prefix=/usr/local make make check sudo make install 完成原创 2012-10-30 09:59:59 · 4538 阅读 · 1 评论