Hadoop基础
本专栏记录Hadoop基础知识点
Nelson_hehe
人生的奔跑不在于瞬间的爆发,而在于途中的坚持。
展开
-
Hadoop大数据开发基础系列:十一、Zookeeper
第十一章、Zookeeper一、Zookeeper简介1.什么是ZookeeperZookeeper是r是一个中心化的服务,一个开源的、分布式的应用程序协调服务。它提供了一套原语集,通过这套原语集,可以实现更高层次的同步服务、配置管理、集群管理以及命名管理。总的来说就是:Zookeeper保证了数据在集群中的事务一致性。Zookeeper通常有奇数个节点(这与选取leader的...原创 2019-11-08 21:28:13 · 191 阅读 · 0 评论 -
Hadoop大数据开发基础系列:十、HBase
第十章、HBase一、HBase是什么?1.概述HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。2.特点(1)优点: 容量大、良好的拓展性(可以动态增加多个节点增加计算和存储能力)、可靠性、高性能、列存储、可伸缩、实时读写、稀疏性(...原创 2019-11-07 23:50:17 · 238 阅读 · 0 评论 -
Hadoop大数据开发基础系列:九、HiveQL
一、HiveQL是什么?1.HiveQL概述Hive是一种数据仓库分析系统,前面我们也说到过,它主要是将SQL的查询过程通过MapReduce来完成HiveQL本质上就是一种SQL。Hive通过HiveSQL去查询分析需要的内容,使不熟悉MapReduce的用户也可以很方便的利用SQL来查询、汇总并分析数据。2.HiveQL及Hive的特点(1)与关系型数据库的SQL 略有不同...原创 2019-11-07 00:11:31 · 504 阅读 · 0 评论 -
Hadoop大数据开发基础系列:八、认识Hive
一、Hive是什么?Hive的本质就是:将HQL/SQL转化为MapReduce程序在Hadoop上运行,可以看成是一个SQL解析引擎Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive表是HDFS的文件目录,一个表对应一个目录名,如果有分区的话, 则分区值对应子目录。Hive教程:hivewiki...原创 2019-11-06 19:21:57 · 198 阅读 · 0 评论 -
Hive托管表和外部表简析
在Hive中创建表时,默认情况下Hive负责管理数据。这意味着Hive把数据移入到它的“仓库目录”。另外一种选择是创建一个“外部表”(external table)。这会让Hive到仓库目录以外的位置去访问数据。这两种表的区别表现在LOAD和DROP命令的语义上。先来看托管表(managed table)。加载数据到托管表时,Hive把数据移到仓库目录。例如:CREATE TABLE...转载 2019-10-25 20:59:27 · 615 阅读 · 0 评论 -
Hadoop大数据开发基础系列:六、了解YARN
了解YARN一、什么是YARN?Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。二、产生背景1.MRv1的架构:2.MR...原创 2019-10-30 16:00:02 · 274 阅读 · 0 评论 -
Hadoop大数据开发基础系列:七、Hive基础
Hive基础一、Hive是什么?Hive的本质就是:将HQL/SQL转化为MapReduce程序在Hadoop上运行,可以看成是一个SQL解析引擎Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive表是HDFS的文件目录,一个表对应一个目录名,如果有分区的话, 则分区值对应子目录。Hive教程:hi...原创 2019-10-30 15:56:00 · 526 阅读 · 1 评论 -
Hadoop大数据开发基础系列:五、MapReduce进阶编程
五、MapReduce进阶编程目录:1.筛选日志文件并生成序列化文件2.HadoopJavaAPI读取序列化日志文件3.优化日志文件统计程序4.Eclipse提交日志文件统计程序5.小结6.实训7.小练习任务背景:网站运营方又提出来新的需求,为了比较今年与去年同期的用户访问数据,要求分别统计出2016年1月与2月的用户访问次数,并输出到不同的目录中。在本章中...原创 2019-10-18 14:29:28 · 5199 阅读 · 3 评论 -
Hadoop大数据开发基础系列:四、MapReduce初级编程
第四章、MapReduce编程入门目录结构1.使用Eclipse建立MapReduce工程 1.1下载与安装Eclipse 1.2配置MapReduce环境 1.3新建MapReduce工程2.通过源码初识MapReduce工程 2.1通俗理解MapReduce原理 2.2了解MR实现词频统计的执行流程 2.3读懂...原创 2019-10-07 20:33:44 · 4870 阅读 · 7 评论 -
Hadoop大数据开发基础系列:三、Hadoop基础操作
第三章、Hadoop基础操作目录结构:1.查看Hadoop集群的基本信息 1.1查询集群的存储系统信息 1.2查询系统的计算资源信息2.上传文件到HDFS目录 2.1了解HDFS文件系统 2.2掌握HDFS的基本操作 2.3任务实现3.运行首个MapReduce任务 3.1了解Hadoop官方的示例程序包...原创 2019-10-05 14:01:57 · 3470 阅读 · 0 评论 -
Hadoop大数据开发基础系列:二、Hadoop集群的搭建及配置
二、Hadoop集群的搭建及配置本章内容见【Hadoop开发环境搭建】系列:【Hadoop开发环境搭建】一、Linux环境下JDK安装和配置【Hadoop开发环境搭建】二、Hadoop安装与配置【Hadoop开发环境搭建】三、Hadoop集群搭建【Hadoop开发环境搭建】四、Hadoop集群启动下一章将学习Hadoop的基础操作 ^_^ 。...原创 2019-10-04 11:06:15 · 385 阅读 · 0 评论 -
Hadoop大数据开发基础系列:一、初识Hadoop
目录结构1.Hadoop概述 1.1 Hadoop简介 1.2Hadoop发展史 1.3Hadoop特点2.Hadoop核心 2.1分布式文件系统——HDFS 2.2分布式计算框架——MapReduce 2.3集群资源管理器——YARN3.Hadoop生态系统4.Hadoop应用场景5.小结一、Hadoo...原创 2019-10-03 16:37:08 · 1347 阅读 · 0 评论