Hadoop权威指南第二版翻译
文章平均质量分 79
maixia24
大数据、机器学习、区块链
展开
-
Hadoop权威指南第二版翻译,前言
(本翻译,力争简洁,明了,保持原滋原味,个人能力有限,欢迎指正)管理小贴士 在本文对一些特定类的讨论中,我经常忽略了他们的包名,以此来减少杂乱。如果你需要知道一个类在哪个包下面,你可以在,Hadoop的相关子项目的Java API文档中(?),轻易查询到。Apache Hadoop主页http://hadoop.apache.org/.。或者,如果你正在使用IDE,你可以使用它的自动补全机原创 2013-05-23 18:29:48 · 1164 阅读 · 0 评论 -
第11章Pig
SchemasPig中的一个关系,可能有一个相关的模式,会给关系的字段名字和类型。我们已经看了,LOAD中的AS语句是怎么被用来,给一个关系添加模式的。grunt> records = LOAD 'input/ncdc/micro-tab/sample.txt'>> AS (year:int, temperature:int, quality:int);grunt> DESCRIB原创 2013-07-19 18:32:21 · 1141 阅读 · 0 评论 -
第11章Pig
Pig LatinThe command to list the files in a Hadoop filesystem is another example of a statement:ls /这部分介绍Pig Latin编程语言的语法、语句信息。本部分不提供对Pig Latin语言的完整的讲解,但是,这部分对于你理解Pig Latin的结构是足够的了。结构一个Pig原创 2013-07-19 18:31:19 · 1020 阅读 · 0 评论 -
第11章Pig
一个例子让我们看下,用Pig Latin写一个程序计算几年中气温最大值(就像我们第二章做的事情那样),这样的简单例子。完整的程序只有几行:-- max_temp.pig: Finds the maximum temperature by yearrecords = LOAD 'input/ncdc/micro-tab/sample.txt'AS (year:chararray, t原创 2013-07-19 18:29:44 · 1112 阅读 · 0 评论 -
第11章Pig
安装和运行PigPig是作为一个客户端程序运行的,即使你想在Hadoop集群上面运行它,你也不需要安装额外的东西。Pig启动jobs,与HDFS(或其它的Hadoop文件系统)交流,这些都是在你的机器上进行的。Pig的安装很简单,你需要java 6(windows 上还需要Cygwin)。从http://hadoop.apache.org/pig/releases.html,下载稳原创 2013-07-19 18:26:39 · 35361 阅读 · 0 评论 -
第11章Pig
Pig提高了处理大数据的抽象能力。Mapreduce允许程序员指明map函数,然后是reduce函数,但是,当你当你把你的数据加工成这种模式的时候,就需要很多Mapreduce阶段,这将会是一个挑战。有了Pig之后,数据结构就更丰富了,典型的多值和嵌套;你可以对数据进行的变换也更加强大了,包括,joins,等,这些可不是Mapreduce微弱的心脏(意即功能很强大)。Pig由两部分组成:原创 2013-07-19 18:25:13 · 913 阅读 · 0 评论 -
第十五章Sqoop(2)
生成的代码除了,从数据库中的内容写到HDFS,Sqoop还提供了写向当前本地目录的生成的Java源文件(widgest.java)。(运行完Sqoop导入命令以后,你可以通过 ls widgest.java 查看)代码生成是Sqoop导入过程的一个必要部分;你会在483页,数据导入:深入学习,在导入HDFS前,Sqoop用生成的代码来反序列化数据库中的特定的表数据。生成的类,有能力原创 2013-07-08 00:21:48 · 6597 阅读 · 0 评论 -
第15章Sqoop(3)
处理导入的数据一旦数据导入到了HDFS中,现在就应该由自定义的Mapreduce处理这些数据了。文本格式导入的数据,可以很容易的和Hadoop流,被脚本语言运行,或者,和默认的TextInputFormat运行(翻译不恰当这里,原文Text-based imports can be easily used in scripts run with HadoopStreaming or in原创 2013-07-08 00:30:38 · 5545 阅读 · 0 评论 -
第一章初识hadoop
第一章 初识hadoop在发达的今天,当一头牛不能运动货物的时候,他们使用多头牛来运输,而不是养一个更大的牛。我们不应该尝试创造更大的电脑,而是更多的电脑。——grace hopper数据大数据处理和分析要解决的第一个问题是 硬盘存储失败。第二个问题是 大多数的分析任务应该能够通过某种途径集合成数据。从一个硬盘读出来的数据,可能需要和其它99个硬盘的数据集成。各种分布式系统原创 2013-06-19 22:53:56 · 1064 阅读 · 0 评论 -
第二章Mapreduce
数据流(统一:job 译为作业,task译为任务)首先,说些术语。一个mapreduce作业是客户端要执行的一个工作单元,它包括:输入数据,mapreduce程序,和配置信息。Hadoop把作业分割成任务来运行,分割成的任务分两种,map任务,reduce任务。有两种类型的节点来控制作业的执行:一个作业tracker和很多的任务tracker。作业tracker通过规划运行在任务tra原创 2013-06-19 23:00:20 · 939 阅读 · 0 评论 -
第二章mapreduce(翻译粗略,优化中)
第二章 mapreducemapreduce是一个数据处理的编程模型。这个模型是简单的,虽然简单,但是她能够表达有用的编程。Hadoop可以运行用各种语言写的mapreduce程序,本章中,我们将看用java、ruby、python和c++写的表示同一意思的程序。Mapreduce本质上是平行的,因此可以把大量的数据分析分配到他们所支配的足够的机器。Mapreduce是处理大数据的,那么现在,原创 2013-06-19 22:57:39 · 967 阅读 · 0 评论 -
第三章Hadoop 分布式系统(翻译粗略 优化中)
第三章 Hadoop 分布式系统当数据库的量大到一个机器存储不了的时候,那么把这些数据分隔开放到很多机器上面就是必要的了。管理网络上的机器的数据的文件系统,叫做分布式文件系统。因为是基于网络的,那么网络的一些问题就会被带到这里面来了,这使得分布式文件系统比通常的文件系统复杂多了。例如,最大的挑战就是,当节点存储数据失败时,整个数据不能丢失。Hadoop分布式文件系统叫做HDFS,。。。原创 2013-06-19 23:03:48 · 1140 阅读 · 0 评论 -
第八章Mapreduce特性
二次排序(在实际生产中用得到,会提高效率)Mapreduce框架在记录到达reducers之前,对记录按照key进行排序。对于任何部分key,值都是未排序的。值出现的顺序,甚至都不是稳定的从一个到另一个,因为,这些值来自不同的map tasks,这些tasks可能在不同的时间结束。通常来说,大多数Mapreduce程序的编写不依靠值在reduce函数出现的顺序。但是,通过,以特定的方法,分组和原创 2013-08-27 00:34:45 · 817 阅读 · 0 评论