- 博客(9)
- 资源 (21)
- 收藏
- 关注
原创 sort命令临时文件的问题
今天op报出了个问题,线上监控程序检测到/tmp目录下发现大的临时文件,经查,是我写的一个脚本中sort命令产生的,悲剧~ sort命令在进行大文件排序,会自动使用外排序,此时默认会在/tmp目录下新建一个大文件,排序完成后删除。 产生的临时文件是隐藏文件,名称like:sort9SQj4x 解决办法,使用-T参数指定临时文件目录 -T tempdir, --temporary-directory=dir 存放临时文件的目录 示例: so
2011-05-31 11:58:00 8643 4
原创 STL开篇
STL(Standard Template Library),即标准模板库,它是惠普实验室开发的一系列软件的统称。从软件复用的角度来看,STL的出现是里程碑式的,它成功的根据范性思维假设起了一个概念结构,并在此基础上提供了一系列容器、算法的接口。 STL主要包括以下几个组件: 1. 容器。包括:vector、list、deque、map、multimap、set、multiset、queue、stack、priority_queue 2. 算法。主要包括:sort、find、max、min…
2011-05-26 09:34:00 1734
原创 Hadoop Streaming 实战: 传递环境变量
环境变量可以理解程序运行的系统环境,用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。 用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息,而streaming程序不能使用JAVA编程接口,因此,streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下: HADOOP_HOME
2011-05-16 09:28:00 6018
原创 Hadoop Streaming 实战: bash脚本
streaming支持使用脚本作为map、reduce程序。以下介绍一个实现分布式的计算所有文件的总行数的程序 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile 2. 编写map、reduce脚本,记得给脚本加可执行权限。 mapper.sh #!/bin/sh wc –l reducer.sh #!/bin/sh sum
2011-05-05 11:59:00 8128 9
原创 Hadoop Streaming 实战: grep
streaming支持shell 命令的使用。但是,需要注意的是,对于多个命令,不能使用形如cat; grep 之类的多命令,而需要使用脚本,后面将具体介绍。 下面示例用grep检索巨量数据: 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile 使用方法:hadoop fs -put ... 从本地文件系统中复制单个或多个源路径到目标
2011-05-05 10:17:00 10082
原创 bash计算
高级bash脚本编程里介绍计算比较详细,常用的主要有expr、let、bc、双括号、awk等 下面简要介绍下我常用的家伙 1. 参与计算的数据包括浮点数,甭想了,bc吧。 eg: 做累加: sum=100.1 for i in `seq 1 100` do sum=`echo "$sum+$i" | bc` echo $sum done 2. 你参与计算的都是整数,并且追求高效率,let吧 eg: a=1 b
2011-05-05 09:27:00 3420
原创 Hadoop客户端环境配置
1. 安装客户端(通过端用户可以方便的和集群交互)2. 修改客户端~/.bashrcalias hadoop='/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop' #hadoop 可执行文件位置alias hls='hadoop fs -ls' alias hlsr='hadoop fs -lsr' alias hcp='hadoop fs -cp ' alias hmv='hadoop fs -mv' alias hget
2011-05-03 22:06:00 8562
原创 Hadoop MapReduce
Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。 Hadoop MapReduce基于“分而治之”的思想,将计算任务抽象成map和reduce两个计算过程,可以简单理解为“分散运算—归并结果”的过程。一个MapReduce程序首先会把输入数据分割成不相关的若干键/值对(key1/valu
2011-05-03 16:53:00 3413
原创 Map-Reduce简介
MapReduce是一种编程模型,始于:Dean, Jeffrey & Ghemawat, Sanjay (2004). "MapReduce: Simplified Data Processing on Large Clusters"。主要应用于大规模数据集的并行运算。其将并行计算简化为Map和reduce过程,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。程
2011-05-03 16:11:00 3411
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人