Hadoop
iteye_5304
这个作者很懒,什么都没留下…
展开
-
【4】Hadoop HDFS 版本升级
1:运行dfsadmin -upgradeProgress status 检查是否存在备份 如果是第一次升级 就不存在备份2:备份dfs.namenode.dir下文件3:停止所有节点 bin/stop-all.sh4:在所有节点上重新部署hadoop 并替换conf文件夹下所有文件(就是将原有的hadoop-0.19.1更名为hadoop-0.19.1-oldverstion,然后解压hadoo...2009-11-13 08:35:47 · 263 阅读 · 0 评论 -
hadoop作业reduce过程调优使用到的参数笔记
reduce的运行是分成三个阶段的。分别为copy->sort->reduce。 由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition, 所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。 所以,为了优化reduce的执行时间,hadoop中是等job的第一个map结束后, 所有的reduce就开...原创 2011-02-25 18:09:31 · 199 阅读 · 0 评论 -
hadoop作业map过程调优使用到的参数笔记
参数:io.sort.mb(default 100) 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。 而是会利用到了内存buffer来进行已经产生的部分结果的缓存, 并在内存buffer中进行一些预排序来优化整个map的性能。 每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该buffer中, 这个buffer默...原创 2011-02-25 17:25:15 · 98 阅读 · 0 评论 -
修改Hadoop集群的备份数
之前dfs.replication值为3,运行一段时间之后我使用完了磁盘空间, 所以呢,现在我想通过降低备份的个数来释放空间。 那么对于之前存储的文件会自动把备份数改为1吗? 还是需要手动执行命令来执行呢? dfs.replication这个参数其实只在文件被写入dfs时起作用,虽然更改了配置文件,但是不会改变之前写入的文件的备份数。 但是可以通过如下命令更改备份数: bin/h...2011-02-25 14:03:54 · 648 阅读 · 0 评论 -
基于Hadoop的一些工具一句话介绍
Pig 是在MapReduce上构建的查询语言(SQL-like),适用于大量并行计算。 Chukwa 是基于Hadoop集群中监控系统,可以用他来分析和收集系统中的数据(日志) Hive 是DataWareHouse 和 Map Reduce交集,适用于ETL方面的工作 HBase 是一个面向列的分布式数据库。 Map ...2011-02-17 16:05:13 · 91 阅读 · 0 评论 -
hadoop自动清除日志文件的配置方法
hadoop集群跑了很多的任务后 在hadoop.log.dir目录下会产生大量的日志文件。 可以通过配置core-site.xml文件让集群自动清除日志文件: <property> <name>hadoop.logfile.size</name> <value>10000000</value> <...2011-01-19 17:57:55 · 791 阅读 · 0 评论 -
zookeeper的简易安装配置
官网的user guide在这: http://hadoop.apache.org/zookeeper/docs/current/zookeeperStarted.html#sc_RunningReplicatedZooKeeper zookeeper的配置只需要更改两个文件 一个是 ./conf/zoo.cfg 一个是zoo.cfg中配置的dataDir的目录下的myid文件,这个...2011-01-12 17:24:10 · 77 阅读 · 0 评论 -
【2】Hadoop 配置
Hadoop Configuration 新增hadoopuser用户 [root@noc rou]# adduser bash: adduser: command not found [root@noc rou]# cd /usr/bin/ [root@noc bin]# ln -s /usr/sbin/adduser adduser [root@noc bin]# adduser ...2009-09-26 21:23:01 · 88 阅读 · 0 评论 -
【3】Hadoop中常出现的错误以及解决方法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。/etc/security/limits.confvi /etc/security/lim...2009-11-14 12:23:44 · 104 阅读 · 0 评论 -
【1】Hadoop 介绍
Hadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。 MapReduce从它名字上来看就大致可以看出个缘由...2009-11-14 12:15:37 · 69 阅读 · 0 评论 -
配置hadoop使用lzo对中间数据进行压缩
分3步完成 1.需要使用root安装liblzo动态链接库 #root cp ./lib64/liblzo2.so.2.0.0 /lib64 cd /lib64/ ln -s liblzo2.so.2.0.0 liblzo2.so ln -s liblzo2.so.2.0.0 liblzo2.so.2 --检查下是否拷贝进去了 ls -l /lib64|grep lzo|w...2012-05-18 11:45:17 · 276 阅读 · 0 评论