summerDG-CSDN博客

原创《hadoop权威指南》学习笔记-MapReduce工作机制（上）

运行作业的方式通常有两种，一种是通过Job的submit()方法来提交任务，另一种是通过waitForCompletion()（如果作业没有提交就提交作业，然后一直等待作业执行完成）。mapred.job.tracker决定了执行的方法：如果这个配置属性被设为local，那么就使用本地作业运行器，这个运行器使作业运行在单个jvm上，设计它的目的是在小数据集上运行、测试MapReduce项目；如

2013-11-18 21:43:07 3222

原创《hadoop权威指南》学习笔记-MapReduce应用开发（下）

这部分内容主要讲在集群上运行mapreduce，说是这样说，但是由于我们还没有搭建集群环境，所以所有的工作相当于还是在伪分布的情况下做的

2013-11-15 19:37:40 1611

原创《hadoop权威指南》学习笔记-MapReduce应用开发（上）

上的内容主要讲mapreduce应用的测试，以及在代码中执行命令行内容。文章中的conf文件夹要自己在当前目录下创建，然后再在该目录下创建三个.xml文件，这三个文件的内容就按照书上的内容输进去。待会我会介绍这些内容的具体含义。首先我们要明确-conf这个命令的含义，-conf适用于修改配置文件的，例如书中的这句命令：hadoop fs -conf conf/hadoop-localh

2013-11-12 20:32:43 2374

原创《hadoop权威指南》学习笔记-hadoop I/O之SequenceFile

SequenceFile是一种基于文件的数据结构，专门用于存贮大文件。其特点就是利用二进制键值对存储数据一、SequenceFile写操作import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Fi

2013-11-06 21:51:37 1470

原创《hadoop权威指南》学习笔记-hadoop I/O之Avro

这篇主要讲一讲我看完Avro这部分的心得体会。Avro其实就是为了让不同语言可以无障碍的进行文件读写。也就是说，虽然读写这部分内容（不论在内存还是文件中）的语言各不相同，API也可不相同，但我们总可以通过Avro提供的方式实现这些语言之间的无障碍沟通。主要原理就是，不论什么语言写入的对象最后通过Avro都会生成Avro的统一格式，这样在最底层形成了统一的格式，我们只要给不同的语言以不同的API方式

2013-11-06 21:21:40 2748

原创《hadoop权威指南》学习笔记-hadoop I/O之序列化

这一部分内容是序列化，关于序列化的内容，书上理论讲的多，实践起来多是利用JUnit进行测试。所以我还花费精力弄了一番JUnit，在eclipse下进行了测试，由于才疏学浅，命令行下搞了半天都不行，希望有大神能指导一下。Eclipse下步骤比较简单，只是虚拟机下的eclipse卡的让人受不了。首先在eclipse下建立一个mapreduce的工程，然后创建包，把相关的类都添加到这个包下面（注意是

2013-11-03 15:35:39 1397

原创《hadoop权威指南》学习笔记-hadoop I/O之压缩

《Hadoop权威指南》第四章是介绍的Hadoop I/O，内容很多，而且有些地方讲的不是太详细，有些代码只有自己写一个不同的才能理解，所以分为三篇博客来写。这一篇主要讲压缩。书上直接先讲压缩类型，这几种压缩类型各有各的优势，bzip2可以于分片，其他的都不行，gzip比较折中，压缩速度和压缩能力相对较为平衡，snappy被谷歌推崇，似乎是安全性更好而且压缩速度和解压速度相当快，尤其在64位X

2013-11-01 19:56:48 1663

原创《hadoop权威指南》学习笔记-hadoop分布式文件系统

这章节的内容重理论，所以有些枯燥，不过对整个分布式文件系统的构建还是讲的蛮详细的。这章其实主要可以分为四大部分：基本概念介绍，接口，数据流，补充内容。一、基本概念中，介绍了数据块、namenode、datanode。这些概念在好多地方都有讲，而且讲得也很好，在这里我只稍微提一下。namenode可以认为是记录了任何一个文件所对应的datanode（其实是文件对应块所在的datanode的信

2013-10-27 22:30:29 1720

原创第一个mapreduce程序的测试与分析

现在开始学习mapreduce的内容。首先我们来装载mapreduce的程序。这里运行mapreduce程序的方法有两种，yizhongshi

2013-10-23 20:14:01 1933

原创 hadoop1.2.1编译eclipse插件

这几天学习hadoop，我竟然花了一天多的时间来搭建环境。主要是自己遇到了其他文章中都没出现的问题。废话不说了，现在就开始搭建。首先我是在ubuntu的虚拟机下工作的，准备工作一定要做好。一、安装jdk，此处我一开始是利用sudo apt-get install openjdk-7-jre，这样做主要是为了方便，省的配置路径，但这给后边的编译造成了麻烦，请大家注意我这里只是

2013-10-19 21:57:15 3208