- 博客(16)
- 收藏
- 关注
原创 Pig 调优实践经验总结(转载)
Pig 调优实践经验总结张贵宾guibin.beijing@gmail.com2012-01-17 本文会不断更新,欢迎大家补充。1. pig.maxCombinedSplitSize 和 pig.splitCombination在实际使用PIG处理数据时,会经常要处理大批量的小文件。在这种情况下,如果不对Pig脚本进行任何特别设置,默认情况下很有可能会遇到类似这...
2013-01-18 14:56:33
188
Hadoop-0.20.2的log存放时间控制
1. 想要在JobTracker的WebUI上(master:50030)多保持几个job执行状态,默认是100个 调整Hadoop配置文件,比如调整为200个 <property> <name>mapred.jobtracker.completeuserjobs.maximum</name> <value>200<...
2012-12-15 16:34:29
197
原创 Hadoop的TestDFSIO测试 (转载)
http://adaishu.blog.163.com/blog/static/175831286201151272221903/为了测试Hadoop用mapreduce方式读写文件系统的性能,开发了TestDFSIO,用法如下:写测试cd到hadoop安装目录:# cd hadoop看看内存情况:# free -g同步内存文件缓存到硬盘:# sync清空linux文件系统缓存:# ...
2012-09-15 21:42:52
1855
原创 The Anatomy of Hadoop IO Pipeline(译)(转载)
作者:Owen Omalley 2009-8-27原文:http://developer.yahoo.com/blogs/hadoop/posts/2009/08/the_anatomy_of_hadoop_io_pipel/译者:phylips@bmy 2011-8-28出处:http://duanple.blog.163.com/blog/static/70971767...
2012-09-15 20:34:16
120
原创 CentOS 6.3上安装Gnuplot 4.4.2(转载)
Compiling Gnuplot 4.4.2 on CentOS 5.5CentOS is a really fine platform for professional Linux servers which is - among others - characterized by stable software releases. However, especially in ...
2012-09-12 13:50:28
608
原创 Centos 6.3上安装配置KVM
修改自http://sunshyfangtian.blog.51cto.com/1405751/503878作业环境服务器端操作系统:CentOS 6.3 final x86_64IP: 133.133.10.50Hostname:myKVMKVM:qemu-kvm-0.12.1.2-2.295.el6_3.2.x86_64 客户端:Ubuntu和Win7,先在服务器...
2012-09-09 16:35:51
165
原创 CentOS 6.0 下 VNC 配置方法(转载)
转载自http://www.laozhe.net/articles/301.htmlCentOS 6.0 下 VNC 配置方法2011年09月2日 系统专区 没有评论 1,255人围观过 最近找了一台 IBM 的老服务器折腾了一下,学习了一下 Linux 技术。这台服务器很老了,在安装 CentOS 时候,经过已经信息查询,内存竟然还有 8G,如...
2012-09-09 11:57:06
244
Hadoop-0.20.2 Child.java bug
} finally { RPC.stopProxy(umbilical); MetricsContext metricsContext = MetricsUtil.getContext("mapred"); //此处的“mapred”应该为“jvm” metricsContext.close(); // Shutting down lo...
2012-04-06 21:24:42
82
Hadoop-0.20.2下Hbase安装
为了研究HBase,在Hadoop-0.20.2上安装HBase-0.90.4,结果出了很多问题。 先找了几虚拟机练练手,配置如下:133.133.134.116 masster133.133.134.115 slave1133.133.134.80 slave2 当然事先已经装好了hadoop-0.20.2。 1、官网上下载hbase-0.90.4.tar.g...
2011-10-19 22:08:14
116
Hadoop的JVM重用
Hadoop中有个参数是mapred.job.reuse.jvm.num.tasks,默认是1,表示一个JVM上最多可以顺序执行的task数目(属于同一个Job)是1。也就是说一个task启一个JVM。 比如我配的是每个slave节点最多同时运行8个map和8个reduce。那么在map阶段,slave节点会启动最多8个JVM用于map。如下: root@...
2011-10-13 20:19:04
255
Mahout-0.5运行时异常处理
很早就装上了mahout-distribution-0.5,结果运行第一个例子Canopy Clustering的时候就报错,在Mahout的官方主页tutorial页面里写了comment,说明了出错的地方,结果没人搭理。 运行命令如下: root@master:/opt/mahout-distribution-0.5# bin/mahout org.apache.mahout....
2011-10-10 17:38:55
135
Hadoop的TeraSort问题
第一步是运行TeraGen来产生数据,原始命令如下: root@master:/opt/hadoop-0.20.2# hadoop jar hadoop-0.20.2-examples.jar teragen 10000000000 /user/terasort/input1TB 由于Hadoop默认的配置文件中,设置的map task个数为2,而teragen也没给设定map t...
2011-09-29 16:41:53
373
org.apache.hadoop.io.WritableUtils简单分析
package org.apache.hadoop.io;import java.io.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.util.ReflectionUtils;import java.util.zip.GZIPInputStream;impo...
2011-09-27 16:10:00
286
Linux集群时间同步设置
打算将11台Linux集群时间同步一下,操作系统都为Ubuntu 11.04 x86 64位选定其中一台133.133.10.2作为时间服务器(ntp server),其他节点与该节点进行时间同步。 1、在133.133.10.2(monitor)上安装ntp server。 root@monitor:~# apt-get install ntp 2、修改/etc/ntp....
2011-09-24 11:32:59
303
Hadoop-0.20.2的PiEstimator问题
直接运行Hadoop-0.20.2的PiEstimator.java的话,会报"java.lang.ArithmeticException: Non-terminating decimal expansion; no exact representable decimal result." 的错误,原因是算出的Pi值没有设定小数位数(Pi是无理数)。解决方法:1、去https://is...
2011-09-05 21:11:28
155
换个地方
在cnblogs上开的博客主要讨论Machine Learning,因为本人主要还是关注数据处理平台,也不想将不同的东西凑合在一起,那么这个博客主要讨论MapReduce、Hadoop及其相关技术吧。 ...
2011-09-05 20:53:19
95
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人