Hadoop基础教程
文章平均质量分 84
主要记录博主在Hadoop学习的过程中的一些过程和心得,重在和大家分享,同时理清学习过程的一些思路。在该篇专栏中会陆续
更新blog,主要关于Hadoop(MapReduce和HDFS)、HBase、Hive、Pig、Sqoop等Hadoop极其相关项目的基础教程,敬请关注...
andie_guo
爱好Java编程、Android App开发、J2EE网站开发、Hadoop大数据,希望与在相同开发方向的攻城狮们相互交流
展开
-
【HBase基础教程】7、HBase之读取HBase数据写入HDFS
本blog介绍如何读取Hbase中的数据并写入到HDFS分布式文件系统中。读取数据比较简单,我们借用上一篇【HBase基础教程】6、HBase之读取MapReduce数据写入HBase的hbase数据输出wordcount表作为本篇数据源的输入,编写Mapper函数,读取wordcount表中的数据填充到原创 2015-03-05 19:46:30 · 8071 阅读 · 2 评论 -
【HBase基础教程】6、HBase之读取MapReduce数据写入HBase
本blog将介绍利用MapReduce操作HBase,借助最熟悉的单词计数案例WordCount,将WordCount的统计结果存储到HBase,而不是HDFS。开发环境硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45、Eclipse Juno Service Release 2、hadoop-1.2.1、hbase-原创 2015-03-05 19:41:16 · 8599 阅读 · 0 评论 -
【HBase基础教程】5、HBase API访问
开发环境硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45、Eclipse Juno Service Release 2、hadoop-1.2.1、hbase-0.94.20。1、Hbase API介绍几个相关类与HBase数据模型之间的对应关系HbaseAdmin用于数据库的创建与删除,HbaseConfigura原创 2015-03-05 19:33:36 · 4485 阅读 · 0 评论 -
【HBase基础教程】4、HBase Shell DML操作
DML(Data Manipulation Language)是数据操纵语言,用户通过它可以实现对数据库的基本操作。例如,对表中数据的查询、插入、删除和修改。 在DML中,应用程序可以对数据库作插,删,改,排,检等五种操作。本节将针对Hbase数据库执行如下DML操作,包括:添加记录、查看记录、查看表中的记录总数,删除记录、删除一张表、查看某个列族的所有记录等。原创 2015-03-05 19:27:09 · 3713 阅读 · 0 评论 -
【HBase基础教程】3、HBase Shell DDL操作
DDL(Data Definition Language)是数据库模式定义语言,是用于描述数据库中要存储的现实世界实体的语言,本节内容将执行关于Hbase的DDL操作,包括:数据库表的建立、查看所有表、查表结构、删除列族、删除表等操作。开发环境硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点)原创 2015-03-05 19:25:21 · 4637 阅读 · 2 评论 -
【HBase基础教程】2、HBase之完全分布式模式安装
上一篇blog我们介绍了Hbase的单机模式安装与伪分布式的安装方式,本篇blog我们将详细介绍如何搭建hbase完全分布式环境,搭建hbase完全分布式环境的前提是我们已经搭建好了hadoop完全分布式环境,搭建hadoop完全分布式环境请参考:【Hadoop基础教程】4、Hadoop之完全分布式环境搭建原创 2015-03-05 19:22:32 · 5847 阅读 · 1 评论 -
【HBase基础教程】1、HBase之单机模式与伪分布式模式安装
在这篇blog中,我们将介绍Hbase的单机模式安装与伪分布式的安装方式,以及通过浏览器查看Hbase的用户界面。搭建hbase伪分布式环境的前提是我们已经搭建好了hadoop完全分布式环境,搭建hadoop环境请参考:【Hadoop基础教程】4、Hadoop之完全分布式环境搭建 开发环境硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点)原创 2015-03-05 19:17:49 · 14465 阅读 · 1 评论 -
【Hadoop基础教程】9、Hadoop之倒排索引
倒排索引是文档检索系统中最常用的数据结构,被广泛用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行了相反的操作(根据关键字来查找文档),因而称为倒排索引(Inverted Index)。通常情况下,倒排索引由一个单词(词组)以及相关的文档列表(标示文档的ID号,或者是指定文档所在位置的URI)原创 2015-03-05 19:03:15 · 8474 阅读 · 1 评论 -
【Hadoop基础教程】7、Hadoop之一对一关联查询
我们都知道一个地址拥有着多家公司,本案例将通过两种类型输入文件:address类(地址)和company类(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD、Beijing Red Star)的关联信息。 开发环境 硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45、hadoop原创 2015-03-06 08:52:40 · 2625 阅读 · 0 评论 -
【Hadoop基础教程】6、Hadoop之单表关联查询
本blog主要通过输入文件中的child字段和parent字段进行单表关联查询,推导出哪些用户具有child与grandparent关系。开发环境硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45、hadoop-1.2.11、 输入数据分析输入文件数据示例:原创 2015-03-04 09:48:36 · 3779 阅读 · 1 评论 -
【Hadoop基础教程】5、Hadoop之单词计数
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版“Hello World”,该程序的完整代码可以在Hadoop安装包的src/example目录下找到。单词计数主要完成的功能:统计一系列文本文件中每个单词出现的次数,如下图所示。本blog将通过分析WordCount源码来帮助大家摸清MapReduce程序的基本结构和运行机制。原创 2015-03-04 09:33:53 · 8496 阅读 · 2 评论 -
【Hadoop基础教程】4、Hadoop之完全分布式环境搭建
上一篇blog我们完成了Hadoop伪分布式环境的搭建,伪分布式模式也叫单节点集群模式, NameNode、SecondaryNameNode、DataNode、JobTracker、TaskTracker所有的守护进程全部运行在K-Master节点之上。在本篇blog我们将搭建完全分布式环境,运行NameNode、SecondaryNameNode、JobTracker守护进程在主节点上,运行Da原创 2015-03-05 18:44:57 · 5385 阅读 · 4 评论 -
【Hadoop基础教程】3、Hadoop之伪分布式环境搭建
伪分布式模式即单节点集群模式,所有的守护进程都运行在同一台机器上。这种模式下增加了代码调试功能,可以查看内存、HDFS文件系统的输入/输出,以及与其他守护进程交互。以hadoop用户远程登录K-Master服务器,在单机模式安装的基础上,我们增加对core-site.xml、hdfs-site.xml、mapred-site.xml核心文件的配置步骤。开发环境硬件环境:Centos 6.5 服务器4原创 2015-03-05 18:42:23 · 2110 阅读 · 1 评论 -
【Hadoop基础教程】2、Hadoop之单机模式搭建
单机模式所需要的系统资源是最少的,这种安装模式下,Hadoop的core-site.xml、mapred-site.xml、hdfs-site.xml配置文件均为空。默认情况下,官方hadoop-1.2.1.tar.gz文件默认使用的就是单机安装模式。当配置文件为空时,Hadoop完全运行在本地,不与其他节点交互,也不使用Hadoop文件系统,不加载任何守护进程,该模式主要用于开发调试MapRedu原创 2015-03-05 18:43:52 · 2561 阅读 · 1 评论 -
【Hadoop基础教程】1、Hadoop之服务器基础环境搭建
开发环境1安装环境2 用户配置2 sudo权限配置3 网络配置4 关闭防火墙5 安装JDK工具您可能喜欢本blog以K-Master服务器基础环境配置为例分别演示用户配置、sudo权限配置、网路配置、关闭防火墙、安装JDK工具等。用户需参照以下步骤完成KVMSlave1~KVMSlave3服务器的基础环境配置。开发环境硬件环境:Centos 6.5 服务器4台(一台为Mas原创 2015-03-05 18:43:06 · 3939 阅读 · 1 评论