2015年06月_技术人Q

转载 Hadoop权威指南第十章

1).永久性数据结构A.NameNode的目录结构NameNode被格式化之后，将产生所示的目录结构：${dfs.name.dir}/current/VERSION /edits /fsimage

2015-06-23 16:15:08 592

转载 Hadoop权威指南第九章笔记

1.集群规范1)配置规范一般Hadoop DataNode和TaskTracker节点典型机器具有吐下规范：处理器：2个四核 2~2.5 GHz CPU内存：16~24 ECC RAM存储器：4*1TB SA

2015-06-23 16:14:12 583

转载 Hadoop权威指南第八章

计数器是一种收集Job统计的有效手段，用于质量控制或应用级统计。计数器的应用使得获取统计数据比使用日志文件获取数据更加容易。1).内置计数器Hadoop的内置计数器用来描述Job的各项指标，例如已处理的

2015-06-23 16:13:34 1062 1

转载 Hadoop权威指南第七章

1.MapReduce的类型Hadoop的MapReduce一般遵循如下常规格式：m

2015-06-23 16:13:00 1023

转载 Hadoop权威指南第六章

转载自 http://www.cnblogs.com/biyeymyhjob/archive/2012/08/11/2631750.html1.剖析MapReduce作业运行机制1).经典MapReduce--MapReduce1.0整个过程有有4个独立的实体客户端：提交MapReduceJobTracker：协调作业的运行TaskTracker

2015-06-23 16:12:30 1175

转载 Hadoop权威指南第五章

1.配置APIHadoop拥有很多xml配置文件，格式遵从一般xml的要求见实例 color yellow Color size 10 Size weight heavy

2015-06-23 16:11:05 876

转载 Hadoop权威指南第四章

1.数据的完整性1).HDFS的数据完整性HDFS以透明方式校验所有写入它的数据，并在默认设置下，会在读取数据时验证校验和。针对数据的每个io.bytes.per.checksum字节都会创建一个单独的校验和。默认值为512字节；采用CRC-32(循环冗余校验)方式，任何大小的数据输入均计算得到一个32位的整数校验和(4字节)。DataNode负责在存储

2015-06-23 16:09:59 831

转载 Hadoop权威指南第三章笔记

1.HDFS的设计HDFS设计的适合对象：超大文件(TB级别的文件)、流式数据访问(一次写入，多次读取)、商用硬件(廉价硬件)HDFS设计不适合的对象：低时间延迟的数据访问、大量的小文件、多用户写入，任意修改文件(因为文件系统元数据存储在NameNode的内存中，所以小文件越多，占用的内存就越多。一般，每个文件，目录或者数据块的存储信息大约占150字节，

2015-06-23 16:09:15 903

转载 hadoop权威指南第一第二章笔记

Hadoop：The Definitive Guid 总结 Chapter 1~2 初识Hadoop、MapReduce 1.数据存储与分析问题：当磁盘的存储量随着时间的推移越来越大的时候，对磁盘上的数据的读取速度却没有多大的增长从多个磁盘上进行并行读写操作是可行的，但是存在以下几个方面的问题：1).第一个问题是硬件错误。使用的硬件越多出错的几率

2015-06-23 16:08:08 1098

亚瑟的守护的专栏