自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 《hadoop权威指南》学习笔记-MapReduce工作机制(上)

运行作业的方式通常有两种,一种是通过Job的submit()方法来提交任务,另一种是通过waitForCompletion()(如果作业没有提交就提交作业,然后一直等待作业执行完成)。mapred.job.tracker决定了执行的方法:如果这个配置属性被设为local,那么就使用本地作业运行器,这个运行器使作业运行在单个jvm上,设计它的目的是在小数据集上运行、测试MapReduce项目;如

2013-11-18 21:43:07 3111

原创 《hadoop权威指南》学习笔记-MapReduce应用开发(下)

这部分内容主要讲在集群上运行mapreduce,说是这样说,但是由于我们还没有搭建集群环境,所以所有的工作相当于还是在伪分布的情况下做的

2013-11-15 19:37:40 1527

原创 《hadoop权威指南》学习笔记-MapReduce应用开发(上)

上的内容主要讲mapreduce应用的测试,以及在代码中执行命令行内容。文章中的conf文件夹要自己在当前目录下创建,然后再在该目录下创建三个.xml文件,这三个文件的内容就按照书上的内容输进去。待会我会介绍这些内容的具体含义。首先我们要明确-conf这个命令的含义,-conf适用于修改配置文件的,例如书中的这句命令:hadoop fs -conf conf/hadoop-localh

2013-11-12 20:32:43 2251

原创 《hadoop权威指南》学习笔记-hadoop I/O之SequenceFile

SequenceFile是一种基于文件的数据结构,专门用于存贮大文件。其特点就是利用二进制键值对存储数据一、SequenceFile写操作import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Fi

2013-11-06 21:51:37 1381

原创 《hadoop权威指南》学习笔记-hadoop I/O之Avro

这篇主要讲一讲我看完Avro这部分的心得体会。Avro其实就是为了让不同语言可以无障碍的进行文件读写。也就是说,虽然读写这部分内容(不论在内存还是文件中)的语言各不相同,API也可不相同,但我们总可以通过Avro提供的方式实现这些语言之间的无障碍沟通。主要原理就是,不论什么语言写入的对象最后通过Avro都会生成Avro的统一格式,这样在最底层形成了统一的格式,我们只要给不同的语言以不同的API方式

2013-11-06 21:21:40 2579

原创 《hadoop权威指南》学习笔记-hadoop I/O之序列化

这一部分内容是序列化,关于序列化的内容,书上理论讲的多,实践起来多是利用JUnit进行测试。所以我还花费精力弄了一番JUnit,在eclipse下进行了测试,由于才疏学浅,命令行下搞了半天都不行,希望有大神能指导一下。Eclipse下步骤比较简单,只是虚拟机下的eclipse卡的让人受不了。首先在eclipse下建立一个mapreduce的工程,然后创建包,把相关的类都添加到这个包下面(注意是

2013-11-03 15:35:39 1285

原创 《hadoop权威指南》学习笔记-hadoop I/O之压缩

《Hadoop权威指南》第四章是介绍的Hadoop I/O,内容很多,而且有些地方讲的不是太详细,有些代码只有自己写一个不同的才能理解,所以分为三篇博客来写。这一篇主要讲压缩。书上直接先讲压缩类型,这几种压缩类型各有各的优势,bzip2可以于分片,其他的都不行,gzip比较折中,压缩速度和压缩能力相对较为平衡,snappy被谷歌推崇,似乎是安全性更好而且压缩速度和解压速度相当快,尤其在64位X

2013-11-01 19:56:48 1564

原创 《hadoop权威指南》学习笔记-hadoop分布式文件系统

这章节的内容重理论,所以有些枯燥,不过对整个分布式文件系统的构建还是讲的蛮详细的。这章其实主要可以分为四大部分:基本概念介绍,接口,数据流,补充内容。一、基本概念中,介绍了数据块、namenode、datanode。这些概念在好多地方都有讲,而且讲得也很好,在这里我只稍微提一下。namenode可以认为是记录了任何一个文件所对应的datanode(其实是文件对应块所在的datanode的信

2013-10-27 22:30:29 1589

原创 第一个mapreduce程序的测试与分析

现在开始学习mapreduce的内容。首先我们来装载mapreduce的程序。这里运行mapreduce程序的方法有两种,yizhongshi

2013-10-23 20:14:01 1787

原创 hadoop1.2.1编译eclipse插件

这几天学习hadoop,我竟然花了一天多的时间来搭建环境。主要是自己遇到了其他文章中都没出现的问题。废话不说了,现在就开始搭建。        首先我是在ubuntu的虚拟机下工作的,准备工作一定要做好。一、安装jdk,此处我一开始是利用sudo apt-get install openjdk-7-jre,这样做主要是为了方便,省的配置路径,但这给后边的编译造成了麻烦,请大家注意我这里只是

2013-10-19 21:57:15 3079

hadoop权威指南第3版

hadoop权威指南第3版,是原文,在第二版的基础上代码有很大的变化,所以建议看看最新版

2013-11-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除