hadoop
文章平均质量分 79
含笑无情
读万卷书 行万里路
展开
-
hadoop生态系统
Hadoop概述Hadoop(http://hadoop.apache.org/)是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来转载 2016-04-20 10:03:43 · 2238 阅读 · 0 评论 -
hdfs的基本原理和基本操作总结
hdfs基本原理Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式原创 2016-04-21 12:17:29 · 11603 阅读 · 1 评论 -
MapReduce基本原理与WordCount程序
MapReduce原理 通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台PC组成的不可靠集群上并发地,分布式处理大量的数据集,而把并发、分布式(机器间通信)和故障恢复等计算细节隐藏起来。 而Mapper和Reducer的抽象,又是各种各样的复杂数据处理都可以分解为的基本元素。这样,复杂的数据处理可以分为多个Job(包含一个Mapper和一个Reducer原创 2016-05-07 15:24:45 · 1930 阅读 · 0 评论 -
Hadoop 之 hive 学习
1. hive介绍 Hive 是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 map原创 2016-06-01 09:22:43 · 1584 阅读 · 2 评论 -
hadoop之hbase学习
HBASE介绍 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。原创 2016-07-12 08:45:16 · 1612 阅读 · 0 评论