Hadoop
积极流年
这个作者很懒,什么都没留下…
展开
-
MapReduce on Yarn执行过程
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn的架构如下图所示: 从Yarn的架构图来看,他主要由ResourceManager、NodeManager、ApplicationMaster和Container等一下几个组件构成。 1)ResourceManager &nbs原创 2020-12-04 21:08:55 · 243 阅读 · 0 评论 -
Hadoop 3.1.1 运行自带的 wordcount 示例
我们这里用自带的示例程序来运行wordcount,从而来演示Hadoop的功能。/home/cndba/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jarhttps://www.cndba.cn/dave/article/3260 https://www.cndba.cn/dave/article/3260 导入测试文件: [http://www.cndba.cn@hadoopmaster hadoop]$ ls原创 2020-12-04 16:05:24 · 585 阅读 · 0 评论 -
Hadoop的数据写入、备份、删除操作
Google 为了应对快速增长的数据处理,开发了一套算法。后来有人根据算法的思想,开发出开源的软件框架 ,就是Hadoop, 随着越来越多的组织和个人开发者在框架开发中不断贡献改进,Hadoop 已经形成一套家族产品,成为当下最成功最流行的分布式大数据处理框架。Hadoop 受到很多组织青睐,是因为有两大因素:</p> 一、超大规模的数据处理, 通常 10TB 以上; 二、超复杂的计算工作,例如统计和模拟。 Hadoop 在很多应用场景中发挥着主要功用,如大规模统计、ETL数据原创 2020-12-04 09:41:48 · 2058 阅读 · 0 评论 -
MapReduce on Yarn运行原理
<span>MapReduce on Yarn运行原理</span>目录一、概念综述Input Split:Map:Shuffle和排序:Map端shuffle过程: Reduce端shuffle过程:Reduce: 二、环形内存缓冲区2.1 什么是环形内存缓冲区2.2 环形内存缓冲区的数据结构三、剖析MapReduce作业运行机制 回到顶部一、概念综述 MapReduce是一种可用于数据处理的编程模型(或计算模型),该模型原创 2020-12-03 23:26:21 · 383 阅读 · 0 评论 -
ambari2.7搭建hadoop3.0
一、安装前准备1、下载ambari和hadoop的包,从https://docs.hortonworks.com/HDPDocuments/ 下载到ambari和hdp的安装包,文件如下:ambari-2.7.1.0-ubuntu16.tar.gz HDP-UTILS-1.1.0.22-ubuntu16.tar.gzHDP-3.0.1.0-ubuntu16-deb.ta...原创 2020-01-09 20:51:36 · 2338 阅读 · 1 评论 -
ambari 安装hdp3.0
大数据之Ambari2.7+HDP3.03.1安装Ambari3.1.1 在mysql中创建ambari数据库1)创建数据库mysql> create database ambari default character set utf8;mysql> create user 'ambari'@'%' identified by 'bigdata';mysql> gra...原创 2020-01-06 19:19:52 · 1982 阅读 · 1 评论 -
hdfs常用命令和java操作hdfs
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统,HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。原创 2017-06-27 21:46:11 · 1808 阅读 · 0 评论