2011年05月_yfk_CSDN博客

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 sort命令临时文件的问题

今天op报出了个问题，线上监控程序检测到/tmp目录下发现大的临时文件，经查，是我写的一个脚本中sort命令产生的，悲剧~ sort命令在进行大文件排序，会自动使用外排序，此时默认会在/tmp目录下新建一个大文件，排序完成后删除。产生的临时文件是隐藏文件，名称like：sort9SQj4x 解决办法，使用-T参数指定临时文件目录 -T tempdir, --temporary-directory=dir 存放临时文件的目录示例： so

2011-05-31 11:58:00 8643 4

原创 STL开篇

STL（Standard Template Library），即标准模板库，它是惠普实验室开发的一系列软件的统称。从软件复用的角度来看，STL的出现是里程碑式的,它成功的根据范性思维假设起了一个概念结构，并在此基础上提供了一系列容器、算法的接口。 STL主要包括以下几个组件： 1. 容器。包括：vector、list、deque、map、multimap、set、multiset、queue、stack、priority_queue 2. 算法。主要包括：sort、find、max、min…

2011-05-26 09:34:00 1734

原创 Hadoop Streaming 实战：传递环境变量

环境变量可以理解程序运行的系统环境，用户可以对自己的运行环境进行定制，其方法就是修改相应的系统环境变量。用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息，而streaming程序不能使用JAVA编程接口，因此，streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下： HADOOP_HOME

2011-05-16 09:28:00 6018

原创 Hadoop Streaming 实战： bash脚本

streaming支持使用脚本作为map、reduce程序。以下介绍一个实现分布式的计算所有文件的总行数的程序 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile 2. 编写map、reduce脚本,记得给脚本加可执行权限。 mapper.sh #!/bin/sh wc –l reducer.sh #!/bin/sh sum

2011-05-05 11:59:00 8128 9

原创 Hadoop Streaming 实战： grep

streaming支持shell 命令的使用。但是，需要注意的是，对于多个命令，不能使用形如cat; grep 之类的多命令，而需要使用脚本，后面将具体介绍。下面示例用grep检索巨量数据： 1. 待检索的数据放入hdfs $ hadoop fs -put localfile /user/hadoop/hadoopfile 使用方法：hadoop fs -put ... 从本地文件系统中复制单个或多个源路径到目标

2011-05-05 10:17:00 10082

原创 bash计算

高级bash脚本编程里介绍计算比较详细，常用的主要有expr、let、bc、双括号、awk等下面简要介绍下我常用的家伙 1. 参与计算的数据包括浮点数，甭想了，bc吧。 eg：做累加： sum=100.1 for i in `seq 1 100` do sum=`echo "$sum+$i" | bc` echo $sum done 2. 你参与计算的都是整数，并且追求高效率，let吧 eg： a=1 b

2011-05-05 09:27:00 3420

原创 Hadoop客户端环境配置

1. 安装客户端（通过端用户可以方便的和集群交互）2. 修改客户端~/.bashrcalias hadoop='/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop' #hadoop 可执行文件位置alias hls='hadoop fs -ls' alias hlsr='hadoop fs -lsr' alias hcp='hadoop fs -cp ' alias hmv='hadoop fs -mv' alias hget

2011-05-03 22:06:00 8562

原创 Hadoop MapReduce

Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题，可以使没有并行处理或者分布式计算经验的工程师，也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。 Hadoop MapReduce基于“分而治之”的思想，将计算任务抽象成map和reduce两个计算过程，可以简单理解为“分散运算—归并结果”的过程。一个MapReduce程序首先会把输入数据分割成不相关的若干键/值对（key1/valu

2011-05-03 16:53:00 3413

原创 Map-Reduce简介

MapReduce是一种编程模型，始于：Dean, Jeffrey & Ghemawat, Sanjay (2004). "MapReduce: Simplified Data Processing on Large Clusters"。主要应用于大规模数据集的并行运算。其将并行计算简化为Map和reduce过程，极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。程

2011-05-03 16:11:00 3411