Hadoop
HusonChen
不再使用CSDN博客,新博客地址
http://www.sonyatong.com
展开
-
初识Hadoop
一个hadoop集群拥有许多并行的计算机,用以存储和处理大规模数据集,分布式系统是向外扩展的,当客户端计算机发送作业到计算云时,计算云将会把任务划分到多个节点进行计算,然后节点将计算结果返回到主节点进行统计,再把结果输送给客户端。这也同时说明了,hadoop编程里面最核心的两个动作是:将任务分解,将结果统计,就是mapping和reducing。不过庆幸的是,hadoop已经帮我们实现了这两种方法原创 2012-03-20 11:14:27 · 2147 阅读 · 1 评论 -
HDFS文件操作
HDFS是一种文件系统,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是他是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。它有以下优点: 1、在分布式存储中,经常会出现节点失效的情况,HDFS可以持续监视,错误检查,容错处理,自动恢复; 2、分布式存储的文件都是非常巨大的,HDFS重新规定了每次原创 2012-04-05 15:21:50 · 16058 阅读 · 0 评论