Alex的Hadoop菜鸟教程
文章平均质量分 93
alexxiyang
java,nodejs,php
展开
-
Alex 的 Hadoop 菜鸟教程: 第18课 用Http的方式访问HDFS - HttpFs 教程
HttpFs 有啥用? HttpFs可以干这两件事情: 1.通过HttpFs你可以在浏览器里面管理HDFS上的文件 2.HttpFs还提供了一套REST 风格的API可以用来管理HDFS。其实很简单的一个东西嘛,但是很实用。原创 2015-02-10 11:17:49 · 17317 阅读 · 0 评论 -
Alex 的 Hadoop 菜鸟教程: 第7课 Hbase 使用教程
本文通过建立student表等相关操作,简单介绍一下hbase的shell操作原创 2014-08-22 17:06:05 · 10184 阅读 · 0 评论 -
Alex 的 Hadoop 菜鸟教程: 第12课 Sqoop1 安装/导入/导出教程
sqoop是用于在传统关系型数据库跟hdfs之间进行数据导入导出的工具。目前sqoop已经出了2,但是截至当前,sqoop2还是个半成品,不支持hbase,功能还很少,所以我还是主要讲sqoop1原创 2014-12-01 15:23:58 · 13193 阅读 · 0 评论 -
Alex 的 Hadoop 菜鸟教程: 第5课 YARN 安装以及helloworld (基于centos的CDH)
根据cdh官方文档的教程做一个简单的例子,但是cdh的教程写的不严谨,有很多坑等着你去跳,所以我改造了一下写成了这篇文章原创 2014-07-03 09:57:14 · 12224 阅读 · 4 评论 -
Alex 的 Hadoop 菜鸟教程: 第2课 hadoop 安装教程 (CentOS6 CDH分支 yum方式)
前提条件:系统是 centos6安装之前1. 安装jdkcdh5 对应的jdk 是 oracle-jdk 1.7.0_25 ,注意是 oracle-jdk ,千万别 yum install jdk 就完事了,因为那样装的是 openjdk到这边 http://www.oracle.com/technetwork/java/javase/downloads/java-archiv原创 2014-07-03 10:34:26 · 15098 阅读 · 3 评论 -
Alex 的 Hadoop 菜鸟教程: 第6课 Hbase 安装教程
这次给大家介绍一下Hbase的概念和安装教程原创 2014-08-12 16:32:49 · 6200 阅读 · 1 评论 -
Alex 的 Hadoop 菜鸟教程: 第15课 Impala 安装使用教程
本教程介绍Impala的安装,使用和JDBC调用。为什么用 Impala? 因为Hive 太慢了!Impala 也可以执行SQL,但是比Hive的速度快很多。为什么Impala可以比Hive快呢?因为Hive采用的是把你的sql转化成hadoop 的 MapReduce任务的代码,然后编译,打包成jar包,并分发到各个server上执行,这是一个相当慢的过程。而Impala根本就不用Hadoop的MapReduce机制,直接调用HDFS的API获取文件,在自己的内存中进行计算。原创 2015-02-09 18:19:28 · 16912 阅读 · 8 评论 -
Alex 的 Hadoop 菜鸟教程: 第17课 更快速的MapReduce - Spark
Spark是Apache的顶级项目。项目背景是 Hadoop 的 MapReduce 太挫太慢了,于是有人就做了Spark,目前Spark声称在内存中比Hadoop快100倍,在磁盘上比Hadoop快10倍。原创 2015-02-11 17:08:12 · 6454 阅读 · 0 评论 -
Alex 的 Hadoop 菜鸟教程: 第20课 工作流引擎 Oozie
简单的说Oozie是一个工作流引擎。只不过它是一个基于Hadoop的工作流引擎,在实际工作中,遇到对数据进行一连串的操作的时候很实用,不需要自己写一些处理代码了,只需要定义好各个action,然后把他们串在一个工作流里面就可以自动执行了。对于大数据的分析工作非常有用。本教程说明了oozie的概念、安装和使用,通过一个例子来让大家感性的认识oozie工作流原创 2015-03-04 15:30:46 · 22053 阅读 · 2 评论 -
Alex 的 Hadoop 菜鸟教程: 第1课 hadoop体系介绍
介绍hadoop的体系,对hadoop庞大的生态圈进行了介绍,并标出了学习的优先级。简单明了的介绍,看了不晕原创 2014-07-02 11:25:53 · 44242 阅读 · 11 评论 -
Alex 的 Hadoop 菜鸟教程: 第22课 分布式日志收集组件:flume
hadoop是一个分布式系统,跟hadoop配合的一般也是分布式系统,分布式系统带来的就是分布式日志,分布式日志带来1. 日志数量多 2. 日志数据量大, 所以无论是采集分布式的日志还是存储海量的日志到hadoop,都需要一个日志收集系统,这就是flume。不过其实关系也不是太大,日志方面没有太大需求的人其实可以跳过flume的学习原创 2014-07-04 13:05:58 · 10252 阅读 · 0 评论 -
Alex 的 Hadoop 菜鸟教程: 第16课 Pig 安装使用教程
本教程介绍Pig的安装和使用。hdfs虽说是一个文件空间,但是我们每次要查看hdfs上的文件的时候都要输入一大串命令,比如一个简单的ls都需要输入 : hdfs dfs -ls / ,而且还不能cd到某个目录,这样就造成了每次ls都要带上全路径的麻烦,能不能有一个工具可以模拟linux下的shell呢?Pig就实现了这样的需求,可以直接ls,可以cd到某个目录。并且Pig还创造了 Pig Latin语言,可以通过Pig写一个类似存储过程的MapReduce的Job,pig会自动帮你把这个job翻译成MapR原创 2015-02-09 18:25:16 · 3997 阅读 · 0 评论 -
Alex 的 Hadoop 菜鸟教程: 第11课 Hive的Java调用
说到Hive就一定要说到写程序的时候怎么调用Hive。以下我通过一个例子说明如果通过java来调用hive查询数据原创 2015-01-23 00:13:33 · 5567 阅读 · 0 评论 -
Alex 的 Hadoop 菜鸟教程: 第9课 zookeeper 介绍和使用
看了之前的教程,会发现多处出现zookeeper,比如hadoop的 auto failover 得用 zookeeper ,Hbase 的 RegionServer 也得用zookeeper。其实不止hadoop,包括现在小有名气的 Storm 用的也是zookeeper。那么zookeeper 究竟是做什么用的?原创 2015-01-18 19:10:01 · 8786 阅读 · 0 评论 -
Alex 的 Hadoop 菜鸟教程: 第19课 华丽的控制台 HUE 安装以及使用教程
Hadoop也有web管理控制台,而且还很华丽,它的名字叫HUE。通过HUE可以管理Hadoop常见的组件。下面用一幅图说明HUE能管理哪些组件。除了Oozie,LDAP SAML和Solr以外,前面的课程都说过了,Oozie是一个工作流组件,在下一课讲解,LDAP是一个用户密码的管理中心,负责用户的登陆。原创 2015-02-12 09:00:12 · 34607 阅读 · 7 评论 -
Alex 的 Hadoop 菜鸟教程: 第3课 Hadoop 安装教程 - 非HA方式 (一台服务器)
本教程是在 Centos6 下使用yum来安装 CDH5 版本的 hadoop 的教程,适合新手并且只有一个linux服务器的情况下最快速度的上手hadoop原创 2014-07-03 10:41:51 · 7247 阅读 · 5 评论 -
Alex 的 Hadoop 菜鸟教程: 第13课 Sqoop1 导入 Hbase 以及 Hive
承接上节课,继续讲如何使用sqoop将mysql的数据导入到 Hbase 或者 Hive 里面原创 2014-12-02 18:03:10 · 3519 阅读 · 1 评论 -
Alex 的 Hadoop 菜鸟教程: 第14课 Sqoop1 从Hbase导出mysql
今天讲讲怎么用sqoop将Hbase或者Hive的东西导出到mysql。不过事先要告诉大家:目前sqoop没有办法把数据直接从Hbase导出到mysql。必须要通过Hive建立2个表,一个外部表是基于这个Hbase表的,另一个是单纯的基于hdfs的hive原生表,然后把外部表的数据导入到原生表(临时),然后通过hive将临时表里面的数据导出到mysql原创 2014-12-05 08:54:02 · 3092 阅读 · 0 评论 -
Alex 的 Hadoop 菜鸟教程: 第10课 Hive 安装和使用教程
Hive 提供了一个让大家可以使用sql去查询数据的途径。让大家可以在hadoop上写sql语句。但是最好不要拿Hive进行实时的查询。因为Hive的实现原理是把sql语句转化为多个Map Reduce任务所以Hive非常慢,官方文档说Hive 适用于高延时性的场景而且很费资源。原创 2014-12-08 18:05:53 · 17640 阅读 · 3 评论 -
Alex 的 Hadoop 菜鸟教程: 第4课 Hadoop 安装教程 - HA方式 (2台服务器)
具体的讲解一下如何将hadoop安装成HA模式原创 2014-12-30 00:29:20 · 8935 阅读 · 12 评论 -
Alex 的 Hadoop 菜鸟教程: 第8课 Hbase 的 java调用方法
我们搭建hbase并不是要用shell来查数据的,我们是要写基于hbase的应用的,所以学习如何使用java来调用hbase是必修课。原创 2015-01-16 01:13:26 · 4537 阅读 · 0 评论 -
Alex 的 Hadoop 菜鸟教程: 第21课 不只是在HBase中用SQL:Phoenix
什么是Phoenix? Phoenix的团队用了一句话概括Phoenix:"We put the SQL back in NoSQL" 意思是:我们把SQL又放回NoSQL去了!这边说的NoSQL专指HBase,意思是可以用SQL语句来查询Hbase,你可能会说:“Hive和Impala也可以啊!”。但是Hive和Impala还可以查询文本文件,Phoenix的特点就是,它只能查Hbase,别的类型都不支持!但是也因为这种专一的态度,让Phoenix在Hbase上查询的性能超过了Hive和Impala!原创 2015-03-06 10:37:26 · 9837 阅读 · 6 评论