2013年06月_吴冬冬

12月 08月 07月 06月 05月 04月 03月 02月 01月

原创 hadoop深入研究:(九)——mapreduce中的压缩

转载请注明出处：http://blog.csdn.net/lastsweetop/article/details/9187721作为输入当压缩文件做为mapreduce的输入时，mapreduce将自动通过扩展名找到相应的codec对其解压。作为输出当mapreduce的输出文件需要压缩时，可以更改mapred.output.compress为true，mapped.output.compre

2013-06-28 09:20:46 16127 2

原创 hadoop深入研究:(八)——codec

转载请注明出处：http://blog.csdn.net/lastsweetop/article/details/9173061所有源码在github上，https://github.com/lastsweetop/styhadoop简介codec其实就是coder和decoder两个单词的词头组成的缩略词。CompressionCodec定义了压缩和解压接口，我们这里讲的codec就是实现了Co

2013-06-27 12:09:23 12274 1

原创 hadoop深入研究:(七)——压缩

转载请标明出处：hadoop深入研究:(七)——压缩文件压缩主要有两个好处，一是减少了存储文件所占空间，另一个就是为数据传输提速。在hadoop大数据的背景下，这两点尤为重要，那么我现在就先来了解下hadoop中的文件压缩。hadoop里支持很多种压缩格式，我们看一个表格：DEFLATE是同时使用了LZ77算法与哈夫曼编码（Huffman Coding）的一个无损数据压缩算法，源代码可以在zlib

2013-06-24 16:27:32 12704 1

原创 hadoop深入研究:(六)——HDFS数据完整性

转载请注明出处：hadoop深入研究:(六)——HDFS数据完整性数据完整性 IO操作过程中难免会出现数据丢失或脏数据，数据传输得量越大出错得几率越高。校验错误最常用得办法就是传输前计算一个校验和，传输后计算一个校验和，两个校验和如果不相同就说明数据存在错误，比较常用得错误校验码是CRC32.hdfs数据完整性 hdfs写入的时候计算出校验和，然后每次读的时候再计算校验和。要注意的一点是，hdfs

2013-06-24 11:52:03 13454 3

原创 hadoop深入研究:(五)——Archives

转载请注明来源地址：http://blog.csdn.net/lastsweetop/article/details/9123155简介我们在hadoop深入研究:(一)——hdfs介绍里已讲过，hdfs并不擅长存储小文件，因为每个文件最少一个block，每个block的元数据都会在namenode节点占用内存，如果存在这样大量的小文件，它们会吃掉namenode节点的大量内存。hadoop Ar

2013-06-21 17:16:32 12730 6

原创 hadoop深入研究:(四)——distcp

转载请注明出处：http://blog.csdn.net/lastsweetop/article/details/9086695 我们前几篇文章讲的都是单线程的操作，如果要并行拷贝很多文件，hadoop提供了一个小工具distcp，最常见的用法就是在两个hadoop集群间拷贝文件，帮助文档很详尽，这里就不一一解释了，开发环境没有两个集群，用同一集群演示：hadoop distcp hdfs://n

2013-06-18 17:46:13 15250 2

原创 hadoop深入研究:(三)——hdfs数据流

以下几个小节并补独立，都是相辅相成的，要结合来看，你就会发现很多有趣的地方。转载请注明来源地址：http://blog.csdn.net/lastsweetop/article/details/90656671.拓扑距离这里简单讲下hadoop的网络拓扑距离的计算在大数量的情景中，带宽是稀缺资源，如何充分利用带宽，完美的计算代价开销以及限制因素都太多。hadoop给出了这样的解决方案：计算两个节点

2013-06-12 17:38:20 14420 11

原创 hadoop深入研究:(二)——java访问hdfs

转载请注明出处，http://blog.csdn.net/lastsweetop/article/details/9001467所有源码在github上，https://github.com/lastsweetop/styhadoop读数据使用hadoop url读取比较简单的读取hdfs数据的方法就是通过java.net.URL打开一个流，不过在这之前先要预先调用它的setURLStreamHa

2013-06-03 21:28:09 19060 4

解决0700BUG的hadoop-core-1.0.4.jar

2012-11-15

hadoop-eclipse-plugin-1.0.4.jar

编译修改好的hadoop eclipse 插件 1.0.4

2012-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人