大数据-Hadoop
文章平均质量分 92
autumnLemon
努力、奋斗
展开
-
Hadoop基础教程-第12章 Hive:进阶(12.4 Hive Metastore)(草稿)
第12章 Hive:进阶12.4 Hive Metastore12.4.1 三种配置方式Hive Metastore有三种配置方式,分别是:Embedded Metastore Database (Derby) 内嵌模式Local Metastore Server 本地元存储Remote Metastore Server 远程元存储12.4.2 Metastore作用...原创 2018-07-16 15:20:05 · 247 阅读 · 0 评论 -
Hadoop基础教程-第9章 HA高可用(9.2 HDFS 高可用配置)(草稿)
第9章 HA高可用9.2 HDFS 高可用配置9.2.1 准备工作因为前面我们已经配置启动了普通的Hadoop相关服务,需要先停止相关服务并清除数据。(1)停止Hadoop服务首先停止YARN[root@node1 ~]# stop-yarn.shstopping yarn daemonsstopping resourcemanagernode2: stopping ...原创 2018-07-03 22:56:53 · 537 阅读 · 0 评论 -
Hadoop基础教程-第9章 HA高可用(9.3 HDFS 高可用运行)(草稿)
第9章 HA高可用9.3 HDFS 高可用运行9.3.1 HA节点规划节点 IP Zookeeper NameNode JournalNode DataNode node1 192.168.80.131 Y Y Y Y node2 192.168.80.132 Y Y Y Y node...原创 2018-07-03 22:58:43 · 487 阅读 · 1 评论 -
Hadoop基础教程-第9章 HA高可用(9.4 YARN 高可用)(草稿)
第9章 HA高可用9.4 YARN 高可用9.4.1 RM单点故障http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.htmlResourceManager(RM)负责跟踪群集中的资源,并调度应用程序(例如MapReduce作业)。在Hadoop 2.4之前,Reso...原创 2018-07-03 23:01:19 · 289 阅读 · 0 评论 -
Hadoop基础教程-第10章 HBase:Hadoop数据库(10.1 NoSQL介绍)(草稿)
第10章 HBase:Hadoop数据库10.1 NoSQL介绍10.1.1 NoSQL简介随着互联网技术(互联网+,物联网)发展,特别是大数据时代到来,我们需要存储处理更多数据,这种需求远远超出传统关系型数据库的存储和处理能力。为了应对这种情形,我们需要不停的扩展。扩展分为两类:一种是纵向扩展,即购买更好的机器,更多的磁盘、更多的内存等等;另一种是横向扩展,即购买更多的机器组成集...原创 2018-07-07 09:58:25 · 239 阅读 · 0 评论 -
Hadoop基础教程-第10章 HBase:Hadoop数据库(10.2 HBase基本概念、框架)(草稿)
第10章 HBase:Hadoop数据库10.2 HBase基本概念、框架本节内容,大多是从网络上汇总而来,并做了一定总结修改。10.2.1 HBase的特点大:一个表可以有上亿行,上百万列。 面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。 稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。(对于关系数据库,空值位置必须存储NULL值;然...原创 2018-07-07 09:59:20 · 179 阅读 · 0 评论 -
Hadoop基础教程-第10章 HBase:Hadoop数据库(10.3 HBase安装与配置)(草稿)
第10章 HBase:Hadoop数据库10.3 HBase安装与配置HBase服务规划机器名 HMaster HRegionServer Zookeeper node1 Y Y Y node2 Y Y Y node3 N Y Y 注意,如果集群较大,HMaster可以大于2。首先通过物理机(W...原创 2018-07-07 10:00:14 · 232 阅读 · 0 评论 -
Hadoop基础教程-第10章 HBase:Hadoop数据库(10.4 NTP时间同步)(草稿)
第10章 HBase:Hadoop数据库10.4 NTP时间同步10.4.1 为什么需要时间同步HBase的HMaster和HRegionServer启动失败,大多是因为集群时间不同步造成的。需要定时进行集群时间同步。10.4.1 ntp服务端(1)安装ntp[root@node1 ~]# yum install -y ntp.....Installing: ntp ...原创 2018-07-07 10:02:04 · 205 阅读 · 0 评论 -
Hadoop基础教程-第10章 HBase:Hadoop数据库(10.5 HBase Shell)(草稿)
第10章 HBase:Hadoop数据库10.5 HBase Shell10.5.1 官方快速入门教程http://hbase.apache.org/book.html#quickstartProcedure: Use HBase For the First Time Connect to HBase10.5.2 连接HBase进入HBase Shell[root@node1 ~]# hbase ...原创 2018-07-07 10:03:23 · 719 阅读 · 0 评论 -
Hadoop基础教程-第9章 HA高可用(9.1 HDFS 高可用介绍)(草稿)
第9章 HA高可用9.1 HDFS 高可用介绍HDFS HA(High Availability)高可用配置官方参考网址http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html9.1.1 背景Prior to Hadoop 2.0.0,...原创 2018-07-03 22:55:44 · 271 阅读 · 0 评论 -
Hadoop基础教程-第8章 Zookeeper(8.5 Zookeeper内存数据库)(草稿)
第8章 Zookeeper8.5 Zookeeper内存数据库8.5.2 内存数据库介绍ZooKeeper的数据模型是一棵树,而从使用角度看, Zookeeper就像一个内存数据库一样。在这个内存数据库中,存储了整棵树的内容,包括所有的节点路径、节点数据及其ACL信息等,Zookeeper会定时将这个数据存储到磁盘上。Zookeeper内存数据库是通过ZKDatabase类实现,...原创 2018-07-03 22:54:08 · 296 阅读 · 0 评论 -
Hadoop基础教程-第8章 Zookeeper(8.4 Zookeeper集群模式)(草稿)
第8章 Zookeeper8.4 Zookeeper集群模式8.4.1 集群模式介绍Running ZooKeeper in standalone mode is convenient for evaluation, some development, and testing. But in production, you should run ZooKeeper in replica...原创 2018-07-03 22:52:45 · 174 阅读 · 0 评论 -
Hadoop基础教程-第12章 Hive:进阶(12.5 Hive外表)(草稿)
第12章 Hive:进阶12.5 Hive外表12.5.1 准备数据[root@nb0 data]# vi gen.sh[root@nb0 data]# cat gen.sh#!/bin/shfor i in {1..100000};do echo -e $i'\t'$RANDOM'\t'$RANDOM'\t'$RANDOMdone;[root@nb0 d...原创 2018-07-16 15:21:16 · 238 阅读 · 0 评论 -
Hadoop基础教程-第13章 源码编译(13.1 Zookeeper源码编译)
第13章 源码编译13.1 Zookeeper源码编译13.1.1 安装Ant注意,不要下载最新版,下载指定版本http://archive.apache.org/dist/ant/binaries/apache-ant-1.9.4-bin.tar.gz解压缩[root@hadron ~]# cd apache-ant-1.9.4/[root@hadron apache-...原创 2018-07-16 15:23:15 · 141 阅读 · 0 评论 -
Hadoop基础教程-第13章 源码编译(13.2 Hadoop2.7.3源码编译)
第13章 源码编译13.2 Hadoop2.7.3源码编译13.2.1下载Hadoop源码包(1)到官网http://hadoop.apache.org/releases.html下载2.7.3的source源码包(2)解压缩tar -zxvf hadoop-2.7.3-src.tar.gz -C /opt1(3)打开解压目录下的BUILDING.txt,编译过程和需要的软件其实就是根据这个文档里...原创 2018-07-16 15:24:43 · 528 阅读 · 0 评论 -
Hadoop基础教程-第13章 源码编译(13.3 HBase1.2.6源码编译)
第13章 源码编译13.3 HBase1.2.6源码编译13.3.1 下载源码https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/单击“stable”连接下载源码hbase-1.2.6-src.tar.gz13.3.2 解压缩[root@cyq opt]# tar -zxvf hbase-1.2.6-src.tar.g...原创 2018-07-16 15:26:51 · 150 阅读 · 0 评论 -
Hadoop基础教程-第13章 源码编译(13.4 Hive2.1.1源码编译)
第13章 源码编译13.4 Hive2.1.1源码编译13.4.1 下载源码https://mirrors.tuna.tsinghua.edu.cn/apache/hive/单击stable-2下载源码apache-hive-2.1.1-src.tar.gz13.4.2 环境准备Hive2.1.1的源码包需要JDK1.8。如果使用JDK1.7编译是总是产生各种奇怪的问题...原创 2018-07-16 15:28:06 · 471 阅读 · 0 评论 -
Hadoop基础教程-第8章 Zookeeper(8.1 Zookeeper介绍)(草稿)
第8章 Zookeeper8.1 Zookeeper介绍8.1.1 单点故障问题单点故障(single point of failure),从英文字面上可以看到是单个点发生的故障,通常应用于计算机系统及网络。实际指的是单个点发生故障的时候会波及到整个系统或者网络,从而导致整个系统或者网络的瘫痪。这也是在设计IT基础设施时应避免的。解决单点问题基本上有3个方向:(1)使用公共缓存...原创 2018-07-03 22:49:18 · 143 阅读 · 0 评论 -
Hadoop基础教程-第8章 Zookeeper(8.2 Zookeeper下载与安装)(草稿)
第8章 Zookeeper8.2 Zookeeper下载与安装ZooKeeper服务器是用Java创建的,它在JVM上运行。需要使用JDK 6或更高版本。这里我们使用JDK8,前文已经安装。8.2.1 Zookeeper下载Zookeeper官网:http://zookeeper.apache.org在首页“Getting Started”区域找到”download”链接在...原创 2018-07-03 22:50:05 · 159 阅读 · 0 评论 -
Hadoop基础教程-第8章 Zookeeper(8.3 Zookeeper单机模式)(草稿)
第8章 Zookeeper8.3 Zookeeper单机模式8.3.1 三种运行模式Zookeeper 有三种运行模式:单机模式、伪集群模式和集群模式。本节重点介绍单机模式,单机模式仅仅用于开发测试环境。一方面我们没有那么多机器资源,另外就是平时的开发调试并不需要极好的稳定性。8.3.2 解读官方文档zookeeper单机模式配置参照官方文档http://zookeeper....原创 2018-07-03 22:51:31 · 161 阅读 · 0 评论 -
Hadoop基础教程-第10章 HBase:Hadoop数据库(10.6 HBase API)
第10章 HBase:Hadoop数据库10.6 HBase API (新特性)本节所有代码可以从https://github.com/ihadron/hbase.git下载。10.6.1 HBase API介绍前面我们已经学习了通过HBase Shell命令来操作HBase,本质上是通过Java API进行操作的。所以Java API操作HBase是最直接、最原生的方式。https://hbas...原创 2018-07-07 10:17:05 · 274 阅读 · 0 评论 -
Hadoop基础教程-第10章 HBase:Hadoop数据库(10.7 HBase 批量导入)
第10章 HBase:Hadoop数据库10.7 HBase 批量导入10.7.1 批量导入数据的方法向HBase表中导入一条数据可以使用HBase Shell的put命令或HBase API的Put类,但是面对海量数据如何批量导入呢? 一般有三种方法:ImportTsv工具、编写MapReduce程序和Hive外表。本节重点介绍ImportTsv工具和编写MapReduce程序两种方法,Hive...原创 2018-07-07 10:20:25 · 253 阅读 · 0 评论 -
Hadoop的HDFS中的namenode和secondarynamenode的内容总结
NameNode主要是用来保存HDFS的元数据信息,比如命名空间信息,块信息等等。当它运行的时候,这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上:fsimage:它是NameNode启动时对整个文件系统的快照。 edits:它是在NameNode启动后,对文件系统的改动序列。 只有在NameNode重启时,edits才会合并到fsimage文件中,从而得到一个文件...原创 2018-08-03 17:14:15 · 770 阅读 · 0 评论 -
Hadoop的split和block的区别和联系
hadoop在默认的情况下,split和hdfs的block的大小是一样的,这样容易造成误解认为两者是一样的,下面说下两者的区别和联系:1. split是MapReduce里的概念,是切片的概念,split是逻辑切片;而block是hdfs中切块的大小,block是物理切块;2. split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于...原创 2018-08-03 17:14:52 · 1245 阅读 · 1 评论 -
Hadoop的MapReduce之maptask和reducetask
mapreduce就是一个分布式程序的通用框架:一个完整的mapreduce程序在分布式运行时有三类实例进程:(根据hadoop2.0以后版本进行讲述)1、MRAppMaster:负责整个程序的过程调度及状态协调;2、mapTask:负责map阶段的整个数据处理流程;3、ReduceTask:负责reduce阶段的整个数据处理流程;具体流程解析如下:1. 一个MapReduce...原创 2018-08-03 17:15:25 · 638 阅读 · 0 评论 -
Hadoop的MAPReduce之shuffle
1. shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存);shuffle具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行排序;2. shuffle缓存流程:shuffle是MapReduce处理流程中的一个过程,每一个处理步骤是分散在各个maptask和reducetask节点上完成的,整体来看,分为...原创 2018-08-03 17:15:59 · 302 阅读 · 0 评论 -
Hadoop的MapReduce和Yarn
1. Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序;Yarn是hadoop2.0版本新添加的;2.YARN基本组成结构:YARN 主要由ResourceManager、NodeManager、ApplicationMaster和Container 等几个组件构成。 ...原创 2018-08-03 17:16:40 · 264 阅读 · 0 评论 -
hadoop生态圈各个组件简介
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce,HDFS还包括YARN。1,HDFS(hadoop分布式文件系统)是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。client:切分文件,访问HDFS,与那么弄得交互,获取文件位置信息,与Dat...转载 2018-08-01 14:41:28 · 997 阅读 · 0 评论 -
大数据平台常用组件端口号
常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 19888:jobhistory ...转载 2018-08-01 22:49:40 · 239 阅读 · 0 评论 -
Hadoop的HDFS中namenode和datenode内容分析
NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;SecondaryNameNode:是一个小弟,分担大哥namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。DataNode:Slave节点,奴隶,干活的。负责存储client发来的数据块block;执行...原创 2018-08-03 17:13:19 · 1372 阅读 · 0 评论 -
Hadoop基础教程-第12章 Hive:进阶(12.2 自定义函数)(草稿)
第12章 Hive:进阶12.2 自定义函数12.2.1 UDP使用Eclipse编写UDP函数,可以通过maven下载需要的jar包,pom.xml文件如下。<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...原创 2018-07-15 14:32:47 · 168 阅读 · 0 评论 -
Hadoop基础教程-第12章 Hive:进阶(12.1 内置函数)(草稿)
第12章 Hive:进阶12.1 内置函数为了方便测试Hive的内置函数,需要构造一个类似于Oracle的dual虚表hive> create table dual(value string);OKTime taken: 0.117 secondshive>hive> insert into dual values("test");WARNING: H...原创 2018-07-15 14:31:17 · 272 阅读 · 0 评论 -
Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.1 Hive 介绍)(草稿)
第11章 Hive:SQL on Hadoop11.1 Hive 介绍11.1.1 为什么需要Hive?Hadoop的出现,正如当年Java语言的出现,得到了极大的关注和广泛应用。Hadoop及其生态圈提供了一个成熟高效的处理大数据的解决方案。然而,一个问题出现:开发人员如何从现有的基于关系数据库的数据架构转移到Hadoop上呢?对于熟悉SQL技术的人员,编写专业的MapReduce程序并非易事。...原创 2018-07-07 10:23:22 · 153 阅读 · 0 评论 -
Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.2 Hive安装与配置)(草稿)
第11章 Hive:SQL on Hadoop11.2 Hive安装与配置11.2.1 安装元数据库Hive的元数据和数据是分开存放的,数据存放在HDFS上,而元数据库默认是存储在Hive自带的Derby数据库。由于Derby只支持同时一个用户访问Hive,所以我们将换成MySQL/MariaDB作为Hive元数据库。(1)安装数据库 CentOS 6.x系统可以安装MySQL,CentOS 7....原创 2018-07-07 10:24:02 · 548 阅读 · 0 评论 -
Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.3 Hive 快速入门)
第11章 Hive:SQL on Hadoop11.3 Hive快速入门11.3.1 HQL介绍Hive查询语言(Hive QL,可以简称HQL)的语法和SQL非常相似,实际上HQL基本上实现了SQL-92标准,并做了一些扩展。但是仍然存在一些差异,比如不支持行级操作,不支持事务处理。HQL更接近MySQL的SQL方言,对于熟悉SQL语言的开发者而言,HQL很容易上手。11.3.2 进入Hive ...原创 2018-07-07 10:26:08 · 216 阅读 · 0 评论 -
Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.4 数据类型和存储格式)(草稿)
第11章 Hive:SQL on Hadoop11.4 数据类型和存储格式11.4.1 数据类型(1)基本类型 Hive 支持关系型数据中大多数基本数据类型,类型描述示例booleantrue/falseTRUEtinyint1字节的有符号整数-128~127 1Ysmallint2个字节的有符号整数,-32768~327671Sint4个字节的带符号整数1bigint8字节带符号整数1Lfloa...原创 2018-07-15 14:21:21 · 137 阅读 · 0 评论 -
Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.5 HQL:DDL数据定义)(草稿)
第11章 Hive:SQL on Hadoop11.5 HQL:DDL数据定义HQL中数据定义部分,也就是DDL,主要包括数据库定义和数据表的定义。前面创建的Hive数据表都是普通的数据表,下来演示分区表等特殊表的定义与使用。11.5.1 删除表查找需要删除的表hive> use default;OKTime taken: 0.038 secondshive> show tabl...原创 2018-07-15 14:22:43 · 139 阅读 · 0 评论 -
Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.6 HQL:DML数据操纵)(草稿)
第11章 Hive:SQL on Hadoop11.6 HQL:DML数据操纵11.6.1 普通表装载数据在前面我们已经熟悉了一次性向Hive表导入(装载)大量数据命令load data,语法如下:load data [local] input 'path' [overwrite] into table tableName1说明:可选项local表示将本地文件装载到Hive表,不加local选项表...原创 2018-07-15 14:24:10 · 176 阅读 · 0 评论 -
Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.7 HQL:数据查询)(草稿)
第11章 Hive:SQL on Hadoop11.7 HQL:数据查询本节操作使用默认default数据库。hive> use default;OKTime taken: 0.035 secondshive>11.7.1 limit 子句hive> select * from emp limit 5;OK7782 CLARK MANA...原创 2018-07-15 14:26:20 · 372 阅读 · 0 评论 -
Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.8 HQL:排序)(草稿)
第11章 Hive:SQL on Hadoop11.8 HQL:排序11.8.1 order byHive 中的 order by与SQL 中的order by语义相同,会对查询结果进行全局排序,但是Hive 语句最终要转换为 MapReduce 程序放到 Hadoop 分布式集群上去执行,多个Mapper 后汇集到一个 Reducer 上执行,如果结果数据量大,那就会造成 Reduc...原创 2018-07-15 14:29:42 · 272 阅读 · 0 评论