BXiron-CSDN博客

原创 MapReduce 简介及实例

MR计算模型的由来MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷，主要是为了解决其搜索引擎中大规模网页数据的并行化处理。 Google公司发明了MapReduce之后，首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题，因此自发明MapR

2016-11-26 13:28:56 1408

原创 hdfs常用操作

查看文件常用命令命令格式 1.hdfs dfs -ls path 查看文件列表 2.hdfs dfs -lsr path 递归查看文件列表 3.hdfs dfs -du path 查看path下的磁盘情况，单位字节使用示例 1.hdfs dfs -ls / 查看当前目录 2.hdfs dfs - lsr / 递归查看当前目录创建文件夹命令格式 hdfs dfs -mkdir pa

2016-11-21 16:56:17 1714

原创 hdfs体系结构与读写过程

1.Namenode管理文件系统的命名空间记录每个文件数据块在各个Datanode上的位置和副本信息协调客户端对文件的访问记录命名空间内的改动或空间本身属性的改动Namenode使用事务日志记录HDFS元数据的变化。使用影响文件存储文件系统的命名空间，包括文件映射，文件属性等2.Datanode负责所在五里界点的存储管理一次写入，多次读取（不修改）文件有数据块组成，典型的块大小是6

2016-11-21 11:39:37 585

原创 HDFS设计基础与目标

硬件错误是常态。因此数据需要有冗余我们使用的每个集群中可能会有许许多多的pc服务器，只要是在运转中的机器，就有可能出现各种的问题，或许是是因为长时间运转而导致CPU过热引起的性能下降，或者是硬盘的损坏而导致服务器的宕机，也有可能是某个节点的失效等等，这些问题对我们的存储的数据来说都是一种危险的存在，如果我们的集群中的服务器足够的多，那我们对于这种的突发事件是无法避免的。所以我们需要冗余，也就是需

2016-11-20 19:55:44 773

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人