- 博客(7)
- 收藏
- 关注
原创 大数据之Hive(一)
数据仓库基本概念数据仓库(DW)【Data Warehouse】的基本目的是面向分析的集成化数据环境,为企业决策提供支持,出于分析和提供支持而创建的数据仓库。其本身不生产任何数据,也不需要消耗任何数据,数据来源于外部,数据也开放给外部使用。基本特征其是面向主题的、非易失的、集成的、时变的数据集合。DW与RDBMS的区别 DW主要是面向主题设计的,用于联机分析处理(OLAP【On-Line Analytical Processing】)用以存储历史数
2020-09-28 14:32:46 148
原创 Yarn工作流程及Job提交机制
1.MR程序创建成功后,需要提交到HDFS上运行,MR程序提交到客户端所在的节点。2.YarnRunner向ResourceManager申请提交一个Application。3.ResourceManager返回应用程序需要提交的资源路径和ApplicationId。4.YarnRunner提交资源到HDFS上,包含Job.xml、Job.split、xx.jar,资源提交完毕之后,向ResourceManager申请一个运行MRApplicationMaster,一个Application对应一个.
2020-09-22 09:03:09 399
原创 Yarn架构介绍
一、概述很多文章都有详细介绍Yarn的,在这里就不在进行介绍了。直接进入主题。二、架构组件前言:yarn是类似Hadoop的架构,也是主从的的经典架构。1、ResourceManagerResourceManager是yarn中主的角色。ResourceManager是一个全局资源管理器,整个集群中只有一个ResourceManager对外提供服务,负责集群内所有应用资源的管理和分配,处理客户端的请求。启动和监控ApplicationMaster,监控NodeManager,资源.
2020-09-18 18:17:00 430
原创 HDFS之MapReduce过程
1.client在提交任务之前,根据参数配置形成任务分配的规划。(比如,切分数据块)2.client端提交任务信息,计算出所需要启动的MapTask的数量,然后向Yarn申请执行任务所需要的资源。3.Yarn启动计算任务,读取需要计算的文本数据,然后调用自定义的Mapper(你自己写的Mapper)进行逻辑运算,然后调用Context.write(k,v)写出数据,生成新的K,V值。4.数据处理完之后,调用OutPutCollector.collect()输出结果,此函数内部会将Key/Value进行
2020-09-17 11:22:28 274
转载 HDFS之读写流程
HDFS写流程假设写入本地file文件,假设文件200M,则共有2个块,block1为128M(hdfs默认块大小为128M),block2为72M。默认三个副本。ClientNode向HDFS写入数据,先调用DistributedFileSystem的 create 方法获取FSDataOutputStream。DistributedFileSystem调用NameNode的 create 方法,发出文件创建请求。NameNode对待上传文件名称和路径做检验,如上传文件是否已存在同名目录,
2020-09-10 17:36:24 117
转载 Hadoop之Core-Site.xml、HDFS-Site.xml、Mapred-Site.xml
HDFS配置文件详解1、core-site.xml参数名参数值参数说明hadoop.tmp.dir/tmp/hadoop-${user.name}临时目录设定hadoop.native.libtrue使用本地hadoop库标识。hadoop.http.filter.initializershttp服务器过滤链设置hadoop.security.group.mappingorg.apache.hadoop.security.ShellBasedUnix
2020-09-08 09:29:45 524
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人