2013年07月_maixia24

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 Hadoop源码分析DataNode类

DataNode类源码分析DataNode 类存储，DFS部署所需要的blocks。一个部署需要一个或多个DataNodes。每一个DataNode和一个单独的NameNode定期的交流。DataNode同样也不时地，和客户端代码和其它的DataNodes交流。DataNodes存储一些命名的blocks。DataNode允许客户端代码来读这些块，或者写进新的block

2013-07-27 00:27:17 1224

原创第11章Pig

SchemasPig中的一个关系，可能有一个相关的模式，会给关系的字段名字和类型。我们已经看了，LOAD中的AS语句是怎么被用来，给一个关系添加模式的。grunt> records = LOAD 'input/ncdc/micro-tab/sample.txt'>> AS (year:int, temperature:int, quality:int);grunt> DESCRIB

2013-07-19 18:32:21 1164

原创第11章Pig

Pig LatinThe command to list the files in a Hadoop filesystem is another example of a statement:ls /这部分介绍Pig Latin编程语言的语法、语句信息。本部分不提供对Pig Latin语言的完整的讲解，但是，这部分对于你理解Pig Latin的结构是足够的了。结构一个Pig

2013-07-19 18:31:19 1029

原创第11章Pig

一个例子让我们看下，用Pig Latin写一个程序计算几年中气温最大值（就像我们第二章做的事情那样），这样的简单例子。完整的程序只有几行：-- max_temp.pig: Finds the maximum temperature by yearrecords = LOAD 'input/ncdc/micro-tab/sample.txt'AS (year:chararray, t

2013-07-19 18:29:44 1127

原创第11章Pig

安装和运行PigPig是作为一个客户端程序运行的，即使你想在Hadoop集群上面运行它，你也不需要安装额外的东西。Pig启动jobs，与HDFS（或其它的Hadoop文件系统）交流，这些都是在你的机器上进行的。Pig的安装很简单，你需要java 6（windows 上还需要Cygwin）。从http://hadoop.apache.org/pig/releases.html,下载稳

2013-07-19 18:26:39 35385

原创第11章Pig

Pig提高了处理大数据的抽象能力。Mapreduce允许程序员指明map函数，然后是reduce函数，但是，当你当你把你的数据加工成这种模式的时候，就需要很多Mapreduce阶段，这将会是一个挑战。有了Pig之后，数据结构就更丰富了，典型的多值和嵌套；你可以对数据进行的变换也更加强大了，包括，joins，等，这些可不是Mapreduce微弱的心脏（意即功能很强大）。Pig由两部分组成：

2013-07-19 18:25:13 935

原创 Sqoop generated code浅析

最近在研究Sqoop，根据hadoop definitive guide 书籍，写下自己的理解，如有不当之处，请指正。先说，Sqoop generated code的两种生成方式：1、使用Sqoop导入命令，会自动生成，它的生成的时间是在导入的过程中，而不是导入完成之后。2、使用如下命令%sqoop codegen --connect jdbc:mysql:/

2013-07-09 23:56:51 1102

原创 Sqoop导入数据文本格式和Sequence File的比较

Sqoop可以导入数据到一些不同的文件格式。文本格式：文本格式（默认格式）提供一种便于人阅读的数据格式，这种格式平台无关性，是最简单的结构。但是，这种文件格式，不可以处理二进制字段（例如数据库中列中的可变二进制类型字段）；不能区分出空值和包含null的字符串。SequenceFile：解决了文本格式的缺点。序列化文件提供了，更精确的导入数据的替代方法的可能性。它

2013-07-09 14:20:05 5015 1

原创第15章Sqoop（3）

处理导入的数据一旦数据导入到了HDFS中，现在就应该由自定义的Mapreduce处理这些数据了。文本格式导入的数据，可以很容易的和Hadoop流，被脚本语言运行，或者，和默认的TextInputFormat运行（翻译不恰当这里，原文Text-based imports can be easily used in scripts run with HadoopStreaming or in

2013-07-08 00:30:38 5570

原创第十五章Sqoop（2）

生成的代码除了，从数据库中的内容写到HDFS，Sqoop还提供了写向当前本地目录的生成的Java源文件（widgest.java）。（运行完Sqoop导入命令以后，你可以通过 ls widgest.java 查看）代码生成是Sqoop导入过程的一个必要部分；你会在483页，数据导入：深入学习，在导入HDFS前，Sqoop用生成的代码来反序列化数据库中的特定的表数据。生成的类，有能力

2013-07-08 00:21:48 6622

原创第十五章 Sqoop（1）

Hadoop平台的一个强大的地方是它处理不同格式数据的能力。HDFS能够稳定的存储日志和其它很多种来源的数据，并且Mapreduce程序可以处理各种各样的数据格式，然后抽取相关的数据并且组合各种各样的数据成为一个有用的结果。但是，和HDFS之外的存储仓库交互数据的时候，Mapreduce程序需要使用外部的API来得到这些数据。通常，有价值的数据存储在RDBMS中。Sqoop是一个允许用户从

2013-07-04 18:30:40 1724