Hadoop/MapReduce/Spark/HBase
坦GA
积沙成塔
展开
-
Hadoop入门
Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File System,google公司为了存储海量搜索数据而设计转载 2016-08-30 22:55:38 · 377 阅读 · 0 评论 -
HDFS介绍
原文地址:http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块转载 2016-10-18 11:01:14 · 437 阅读 · 0 评论 -
HBase详细介绍
原文地址:http://blog.csdn.net/frankiewang008/article/details/419655431-HBase的安装HBase是什么?HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map转载 2016-10-17 19:39:05 · 1021 阅读 · 0 评论 -
MapReduce原理与设计思想
原文地址:http://www.cnblogs.com/archimedes/p/mapreduce-principle.html简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃?MapReduce方法则是:给在座的所有玩家中分配这摞牌让每个玩家数自转载 2016-10-17 18:26:33 · 509 阅读 · 0 评论 -
Hadoop介绍
原文地址:http://cloud.csdn.net/a/20120220/312061.html如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数转载 2016-10-17 17:52:57 · 470 阅读 · 0 评论 -
从Hadoop框架与MapReduce模式中谈海量数据处理
原文地址:http://zhipingch.iteye.com/blog/1629902前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。转载 2016-10-17 10:22:39 · 722 阅读 · 0 评论 -
HDFS的运行原理
原文地址:http://www.weixuehao.com/archives/596简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副转载 2016-10-17 09:42:41 · 388 阅读 · 0 评论 -
大数据以及Hadoop相关概念介绍
原文地址:http://www.cnblogs.com/xdp-gacl/p/4230220.html一、大数据的基本概念1.1、什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据。大数据是以TB级别起步的。在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空间代表的就是该文件的大小,在计算机当中,文件的大小可以采用以下单转载 2016-10-17 09:22:53 · 635 阅读 · 0 评论 -
HBase0.94和Hadoop2 结合
原文地址:https://hbase.apache.org/book.html4.1.1. Apache HBase 0.94 with Hadoop 2To get 0.94.x to run on Hadoop 2.2.0, you need to change the hadoop 2 and protobuf versions in thepom.xml: Here is翻译 2016-10-16 11:23:41 · 720 阅读 · 0 评论 -
Apache HBase配置介绍
原文地址:https://hbase.apache.org/book.html#_configuration_filesApache HBase ConfigurationThis chapter expands upon the Getting Started chapter to further explain configuration of Apache HBase. Pl翻译 2016-10-16 11:04:46 · 582 阅读 · 0 评论 -
Hbase原理、基本概念、基本架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器转载 2016-09-06 22:48:32 · 383 阅读 · 0 评论 -
什么时候用HBase
本文内容摘自官网:http://redis.io63.2. When Should I Use HBase?HBase isn’t suitable for every problem.First, make sure you have enough data. If you have hundreds of millions or billions of ro翻译 2016-09-19 22:12:29 · 1097 阅读 · 0 评论 -
HBase常见问题及其答案
原文地址:http://www.cnblogs.com/panfeng412/archive/2012/09/08/hbase-faq-answer.html1. HTable线程安全吗?HTable不是线程安全的,使用过程中建议一个线程中使用一个HTable对象,不同线程间不要共享HTable对象。同时,为了提高客户端的效率,不同的HTable对象公用同一个Configu转载 2016-10-10 06:31:36 · 1696 阅读 · 0 评论 -
MapReduce工作原理图文详解
MapReduce工作原理图文详解 MapReduce作业运行流程 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专转载 2016-08-31 09:36:52 · 522 阅读 · 0 评论 -
Hadoop常见问题
原文地址:http://wiki.apache.org/hadoop/FAQ1. General1.1. What is Hadoop?Hadoop is a distributed computing platform written in Java. It incorporates features similar to those of the Googl翻译 2016-10-23 10:43:57 · 588 阅读 · 0 评论