awk的一些使用方法 输出字符串长度:[code="java"]awk '{if(length($1)>200)print}' [/code]去掉最后两行:[code="java"]awk 'NF-=2' 2C.txt | le [/code]for语句与split语句:[code="java"]le rid_list.txt | awk -F\; '{for(i=1;i...
hadoop的一些使用方法 命令行查看当前正在执行的job id:[code="java"][hadoop@compute-63-9 ~]$ /hadoop/hadoop_home/bin/hadoop job -jt compute-63-0:9001 -list all |awk '{ if($2==1) print $1 }'job_201203311041_0041[/code]设置副本数目[...
MapReduce的工作原理-笔记 To create the list of tasks to run, the job scheduler first retrieves the input splits computed by the JobClient from the shared filesystem.It then creates one map task for each split.事实上,当输入数据足够小...
gcc编译问题 [code="java"][hadoop@hs15 soap2.21]$ makegcc -c -msse3 -O3 -funroll-loops -maccumulate-outgoing-args -fomit-frame-pointer -DMAKE_TIME=\""`date`"\" -DPTHREADS BWT.c -o BWT.oBWT.c:537: error: sh...
DistributedCache使用 DistributedCache使用:1.import包[code="java"]import org.apache.hadoop.filecache.DistributedCache;[/code]2.加到Cache中[code="java"]DistributedCache.addCacheFile(new Path(args[++i]).toUri(), jo...
hadoop Incompatible namespaceIDs 错误:[code="java"]ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs[/code]DataNode的VERSION内容:[code="java"][hadoop@dl180-2 current]$ more /...
hadoop Incompatible namespaceIDs 错误:[code="java"]ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs[/code]DataNode的VERSION内容:[code="java"][hadoop@dl180-2 current]$ more /...
hadoop控制mapper的数目 由于数据上传后,一般以集群的默认dfs.block.size作为块大小。但是由于我的输入文件小于块大小,但是每一行又需要在mapper中做并行,在默认的情况下,hadoop只会开一个mapper。后来通过看hadoop的源码分析发现有个方法:在主函数中设置:[code="java"]job.getConfiguration().setInt("mapred.max.split.size...
hadoop控制mapper的数目 由于数据上传后,一般以集群的默认dfs.block.size作为块大小。但是由于我的输入文件小于块大小,但是每一行又需要在mapper中做并行,在默认的情况下,hadoop只会开一个mapper。后来通过看hadoop的源码分析发现有个方法:在主函数中设置:[code="java"]job.getConfiguration().setInt("mapred.max.split.size...
sed的一些使用方法 用SED如何輸出指定範圍的行,輸出的是1-5行[code="java"]sed -n '1,5p' filename [/code]如果要求輸出的是1,9,11,33行[code="java"]sed -n '1p;9p;11p;33p' urfile[/code]替换:[code="java"]sed -i "s/-Xmx4096m/-Xmx2048m/g" ma...
分布式文件系统NFS上搭建hadoop集群 总的来说,hadoop并不适合搭建在NFS上。一来是NFS的存储成本过高,二来损失了hadoop原本在分布式上的“本地性”特点。不过由于各种各样的原因,有时候需要在分布式文件系统NFS上搭建hadoop。分布式NFS这种架构主要是计算节点和存储节点的分离。计算节点带有少量的存储。在某些情况下甚至没有存储可以用,这是因为计算节点除了装系统的空间外,不给用户在计算节点上存储任何东西。因...
简单的分布式矩阵乘法 [u][b]其实就是用DistributeCache将其中的一个较小的矩阵放到内存中。[/b][/u][img]http://dl.iteye.com/upload/attachment/569328/dce74e64-d3ff-376e-909d-370a37c8b679.png[/img]
python的小puzzle [code="java"]a=[1]for aa in a: print aa a.append(aa+1)[/code]结果就是无限循环啦。每次输出是前面加一。既然append不行,那就insert在前面吧。[code="java"]a=[1]for aa in a: print aa a.insert(0,aa+1)[/c...
ganglia集群监控 安装的方法网上一大堆,不同的系统有不同的方法,只有试过才知道那个最适用自己集群的。我的系统是rhel,就直接yum安装后来发现图表的坐标没显示出来,找了最新版的gweb放到apache的目录下,还是不行,就猜想可能是rrdtool的版本过低导致,因此查看了一下rrdtool的版本,发现是1.2的,网上那些有坐标的都是1.3以上的。于是下载了一个最新的1.4.5的版本。...
Shell的一些使用方法 获取本机所有用户:[code="java"]cat /etc/passwd[/code][b]dd用于复制,从if读出,写到of。if=/dev/zero不产生IO,因此可以用来测试纯写速度。同理of=/dev/null不产生IO,可以用来测试纯读速度。bs是每次读或写 [/b]1.测/目录所在磁盘的纯写速度:[code="java"]time dd if=/dev/zero ...
VI指定自己的配置文件 [code="java"]vim abc.java -u xxx.conf[/code]abc.java为要编辑的文件。xxx.conf内放置自己的配置内容即可。这样用vim干不同的事情的时候可以使用不同的配置文件。写代码常用的就是:[code="java"]set expandtabset nuset tabstop=2set shiftwidth=2se...
Idempotent-幂等 idempotent n. [数] 幂等幂等(idempotent、idempotence)是一个数学或计算机学概念,常见于抽象代数中。 [b]幂等有以下几种定义: [/b]对于单目运算,如果一个运算对于在范围内的所有的一个数多次进行该运算所得的结果和进行一次该运算所得的结果是一样的,那么我们就称该运算是幂等的。比如绝对值运算就是一个例子,在实数集中,有abs(a)=abs...