hadoop
今天,我和你拼了
严谨,认真,负责
展开
-
Hadoop的数据仓库Hive
Hadoop的数据仓库HiveHive基本概念 由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序 1)Hive 处理的数据存储在 HDFS 。 2)Hive 分析数据底层的实现是 MapReduce ...原创 2019-11-24 21:24:19 · 171 阅读 · 0 评论 -
Yarn的多租户配置实现资源隔离
Yarn的多租户配置实现资源隔离资源隔离介绍:资源隔离目前有2种,静态隔离和动态隔离。静态隔离 所谓静态隔离是以服务隔离,是通过cgroups(LINUX control groups) 功能来支持的。动态隔离动态隔离只要是针对 YARN以及impala, 所谓动态只是相对静态来说,其实也不是动态。第一步:hadoop102配置yarn-site.xml<...原创 2019-11-22 22:22:15 · 1914 阅读 · 0 评论 -
Yarn的资源调度
Yarn的资源调度资源调度器的职能资源调度器是YARN最核心的组件之一,是一个插拔式的服务组件,负责整个集群资源的管理和分配。YARN提供了三种可用的资源调度器:FIFO、Capacity Scheduler、Fair Scheduler资源调度器的分类不同的任务类型对资源有着不同的负责质量要求,有的任务对时间要求不是很高(如Hive),有的任务要求及时返还结果(如HBase),有...原创 2019-11-22 22:07:16 · 153 阅读 · 0 评论 -
Yarn的ApplicationMaster介绍
Yarn的ApplicationMaster介绍ApplicationMaster基本介绍 ApplicationMaster实际上是特定计算框架的一个实例,每种计算框架都有自己独特的ApplicationMaster,负责与ResourceManager协商资源,并和NodeManager协同来执行和监控Container。MapReduce只是可以运行在YARN上一种计算框架。...原创 2019-11-22 22:05:46 · 10358 阅读 · 0 评论 -
Yarn的ResourceManager&NodeManager的功能介绍
ResourceManager&NodeManager的功能介绍ResourceManager基本介绍ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个NodeManager的资源汇报信息,并把这些信息按照一定的策略分配给各个ApplicationMaster。RM的职能(1)与客户端交互,处理客户端的请求。(2)启动和管理AM,并在它运行失...原创 2019-11-22 22:04:37 · 5919 阅读 · 0 评论 -
Yarn的架构和原理
Yarn的架构和原理yarn的简介YARN是Hadoop2引入的通用的资源管理和任务调度的平台,可以在YARN上运行MapReduce、Tez、Spark等多种计算框架,只要计算框架实现了YARN所定义的接口,都可以运行在这套通用的Hadoop资源管理和任务调度平台上。产生背景Hadoop1.0是由HDFS和MapReduce V1组成的,YARN出现之前是MapReduce ...原创 2019-11-22 22:01:48 · 233 阅读 · 0 评论 -
MapReduce原理
MapReduce原理分区和reduce的数量:在 MapReduce 中,通过我们指定分区,会将同一个分区的数据发送到同一个 reduce 当中进行处理,就是相同类型的数据,送到一起去处理,在 reduce 当中默认分区只有 1 个。注意:分区的案例,只能打成jar包发布到集群中。本地模式只能有一个默认分区案例:/** * 这里的输入类型与我们 map 阶段的输出类型相同 */...原创 2019-11-18 09:42:32 · 101 阅读 · 0 评论 -
MapReduce入门概述
MapReduce入门概述定义:MapReduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 MapReduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。优缺点:优点:易于编程,良好的扩展性,高容错性,海量数据的离线处理缺点:不擅长实时计算...原创 2019-11-18 09:41:40 · 126 阅读 · 0 评论 -
Hadoop入门概述
Hadoop入门概述一:概述 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。二:组成 Hadoop1.x和2.x的区别 1. 1.x HDFS(数据存储) Yarn(资源调度) Common(辅助工...原创 2019-11-11 11:06:06 · 221 阅读 · 0 评论 -
Hadoop运行环境&运行模式
Hadoop运行环境&伪分布式运行模式一:搭建运行环境克隆虚拟机——》修改静态ip——》修改主机名——》关闭防火墙——》创建普通用户——》配置普通用户的root权限—创建文件夹module、software——》修改文件及啊的所有者安装JDK1. 检查是否安装Java:rpm -qa | grep java 2. 安装的版本低于1.7,卸载该JDK:sudo r...原创 2019-11-11 11:05:37 · 142 阅读 · 0 评论