Hadoop
harveybd
这个作者很懒,什么都没留下…
展开
-
Hadoop 集群搭建(单机/伪分布式/分布式)
本教程适用于在 CentOS7 系统中安装 Hadoop2,详细介绍了从系统环境配置、Java环境配置到 Hadoop 安装及 Hadoop 集群配置,包括:单机、伪分布式以及分布式,步骤详细,辅以适当说明。相信按照步骤来,都能顺利搭建一个属于自己的 Hadoop 集群。 废话不多说,干货上架。一、安装虚拟机首先我们需要安装一个虚拟机软件,安装教程可以参考笔者的博客:安装VMware及新建虚拟机二原创 2017-05-31 11:44:14 · 3089 阅读 · 0 评论 -
Azkaban 使用
Azkaban 安装请参考博客: https://blog.csdn.net/hg_harvey/article/details/80342396登录Azkaban,首页有四个菜单 projects:最重要的部分,创建一个工程,所有flows将在工程中运行。 Scheduling:显示定时任务 Executing:显示当前运行的任务 History:显示历史运行任务主要介绍P...原创 2018-05-31 14:06:57 · 4058 阅读 · 0 评论 -
Azkaban 简介及安装(3.x)
1.Azkaban 简介官网:https://azkaban.github.io/       Azkaban 一个批量工作流任务调度器,使用Java语言开发。用于在一个工作流内以一个特定的顺序运行一组工作和流原创 2018-05-16 20:38:26 · 9444 阅读 · 3 评论 -
MapReduce 工作机制
MapReduce是一种分布式计算模型,由Google 2004年提出,主要用于搜索领域,解决海量数据的计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,原创 2018-03-08 16:23:56 · 2280 阅读 · 0 评论 -
Hive 内置函数及自定义函数
1.内置函数使用如下命令查看当前hive版本支持的所有内置函数show functions;部分截图:可以使用如下命令查看某个函数的使用方法及作用,比如查看 upper函数desc function upper;如果想要查看更为详细的信息加上extended参数desc function extended upper;内置函数使用员工表emp,数据如下lower():转换为小写查询emp表中员工原创 2017-09-02 18:16:08 · 8396 阅读 · 1 评论 -
Hive 之 Java API 操作
Java 想要访问Hive,需要通过beeline的方式连接Hive,hiveserver2提供了一个新的命令行工具beeline,hiveserver2 对 之前的hive做了升级,功能更加强大,它增加了权限控制,要使用beeline需要先启动hiverserver2,再使用beeline连接1.beeline 的 使用启动hiverserver2$ hiveserver2使用beeline连接h原创 2017-08-29 21:51:09 · 26615 阅读 · 0 评论 -
Hadoop 及 Hive 压缩应用
1.压缩在Hadoop中的应用1.压缩概述 为什么使用压缩?文件压缩主要有两个好处:一是减少了存储文件所占空间,二是提高了数据的传输速度,在大数据环境下,这两点显的尤为重要。压缩主要应用在输入文件(Map的输入)、输出文件(Reduce的输出)及中间输出(只有Map,没有Reduce,Map的输出)。 常用的压缩技术有两种,一种是无损压缩(Lossless compression原创 2017-08-26 22:57:13 · 883 阅读 · 0 评论 -
Hive 概述 体系架构及环境搭建
一、Hive 概述及体系架构1.Hive 是什么(1).由Facebook开源,最初用于解决海量结构化的日志数据统计问题 (2).是一个构建在Hadoop之上的数据仓库 (3).Hive定义了一种类似于SQL查询语言:HQL(非常类似于MySQL中的SQL语句,同时做了扩展) (4).通常用于离线数据处理(采用MapReduce) (5).可以认为是一个HQL=>MapReduce的语言翻译原创 2017-08-22 21:43:24 · 1072 阅读 · 1 评论 -
Hive DDL DML及SQL操作
一、Hive 数据模型及数据类型1.Hive 数据抽象hive 中主要包含以下几种数据模型:Database(数据库)、Table(表)、Partition(分区)、Bucket(桶)Database(数据库) Hive中的数据库包含一系列的数据库,每个数据库都对应于HDFS上的一个目录,默认的数据库为default,对应于HDFS目录是/user/hadoop/hive/warehouse,可以原创 2017-08-23 03:09:11 · 3031 阅读 · 1 评论 -
MapReduce 操作 HBase
MapReduce 操作 HBase原创 2017-08-22 20:23:14 · 1025 阅读 · 0 评论 -
Hadoop2.7.3 编译 支持5种压缩
导读: 按博客中的操作步骤操作后,hadoop 编译完成后可以支持5种本地压缩:zlib、snappy、lz4、bzip2、openssl笔者环境配置为:JDK1.8、Hadoop2.7.3,Hive2.3.0,你也可以使用其它版本,注意版本兼容即可1.安装依赖工具1.安装相关工具由于笔者是最小安装,所以很多工具都没有安装,具体需要安装哪些的工具,也不太清楚,所以就安装了很多。建议你使原创 2017-08-24 19:49:19 · 3589 阅读 · 0 评论 -
Hadoop HA 高可用集群搭建
目录 1.Hadoop HA 介绍 Hadoop HA 概述 Hadoop HA 高可用整体架构 NameNode 主备切换实现 2.前期准备 3.环境配置 新建5台服务器 安装前准备(防火墙及selinux守护进程) 配置主机名、IP及主机名与IP映射 创建hadoop用户、配置SSH原创 2017-07-31 21:26:32 · 2395 阅读 · 0 评论 -
HBase Shell及JavaAPI操作
HBase Shell 及 Java API 操作原创 2017-08-12 16:36:30 · 2678 阅读 · 0 评论 -
HBase HA 高可用集群搭建
HBase HA 高可用集群搭建原创 2017-08-10 14:25:35 · 959 阅读 · 0 评论 -
HDFS JavaAPI 操作
一、windows 下配置hadoop开发环境1.下载hadoop及windows版的winutils下载hadoop压缩包(笔者使用版本为2.7.3) 网址:http://hadoop.apache.org/releases.html下载windows版的winutils(适用于2.7.x) 网址:https://github.com/SweetInk/hadoop-common原创 2017-08-03 17:36:00 · 1044 阅读 · 0 评论 -
HDFS Shell 操作
HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是对文件系统的基本操作,即文件及文件夹的增删改查、权限修改,HDFS提供了一套自己的shell命令来进行操作,类似于我们linux系统中的shell命令。我们在执行HDFS 的shell命令时,要确认hadoop是正常运行的,可以通过命令jps来查看进程,查看hadoop当前是否是正常运行。执行如下命令,我们来查看一下HDFS 的原创 2017-08-03 17:35:11 · 897 阅读 · 0 评论 -
Hadoop HDFS 运行原理
hadoop hdfs 工作机制hdfs 写数据库流程hdfs 读数据流程原创 2017-08-03 17:34:01 · 911 阅读 · 2 评论 -
Hadoop2.x 资源调度框架Yarn
Hadoop2.x Yarn原创 2017-08-08 22:44:01 · 1318 阅读 · 0 评论