star++
致力于研究Apache开源项目
展开
-
yarn工作机制(图文版)
ResourceManager组件1.ResourceManager作为yarn的一个组件,负责所有资源的管理分配,管理多个NodeManager2.ResourceManager内部包含所谓的调度器3.ResourceManager只是管理资源,具体资源在NodeManager上4.ResourceManager监控管理NodeManager,调度时候,将任务分配到有足够资源的NodeManager上NodeManager组件1.负责单个计算节点的资源管理2.接受ResourceManag原创 2021-04-12 20:16:56 · 369 阅读 · 0 评论 -
yarn三种调度器原理
概述yarn调度器原创 2021-04-11 08:34:44 · 726 阅读 · 0 评论 -
yarn核心配置详解
官方配置yarn-default.xmlResourceManager配置//配置调度器类型--默认容量调度器yarn.resourcemanager.scheduler.class调度器三种:1.FIFO单队列类型2.容量调度器( CapacityScheduler)3.公平调度器//配置resourcemanager处理并发数量--默认50yarn.resourcemanager.client.thread-count//默认是50,也就是同时可接受50个jobNodeMan原创 2021-04-09 23:53:22 · 426 阅读 · 0 评论 -
MapReduce整体流程图(图文版)
流程图文字描述原创 2021-04-04 12:12:25 · 1104 阅读 · 4 评论 -
hadoop和mysql对比(优缺点及使用场景)
概述hadoop有三大组件,hdfs分布式文件系统,map-reduce用于计算,yarn(辅助); 同时mysql也是用来数据存储和和计算的,存储数据到表中, 使用sql语句进行计算; 所以我们可以对比一下他们的优缺点和使用场景.mysql优点:1.mysql使用表存储数据,使用sql直接查询和一些聚合(sum,avg..)计算,使用操作简单2.mysql上手入门门槛低,基本上就是安装,学会使用基本的DDl,DQL就算是入门了3.mysql只是作为一个存储中间件,一般是单节点,主从节点的结构,原创 2021-04-03 08:19:19 · 6604 阅读 · 0 评论 -
MapReduce整体流程图(源码版)
创建任务执行任务原创 2021-03-29 18:55:01 · 282 阅读 · 0 评论 -
MapReduce流程InputFormat
概述InputFormat是做大数据分析的第一步,也就是解决数据输入格式问题,因为要处理的数据可能来源不同(文件,数据库,key/value等),意味着格式也就不同,那么InputFormat就是用来解决这个问题的,这样在做Map的时候才能做到数据的统一处理.组件涉及到的作用1.通过InputFormat可以解决数据输入不同格式问题2.不同的数据格式其实多少影响分片,InputFormat的不同实现切片策略也不太一样TextInputFormat(默认)原理:1.TextInputFormat原创 2021-03-27 16:38:45 · 276 阅读 · 0 评论 -
SpringBoot运行MapReduce程序打包插件导致类找不到问题
程序结构说明:一个非常普通的springboot结构pom文件打包插件使用<build><plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration> <source&g原创 2021-03-22 08:22:37 · 513 阅读 · 0 评论 -
MapReduce案例WordCount
环境准备1.输入文件 a.txtaa abbb ccdd d dd ee2.集成环境参考之前博客即可hadoop(阿里云内网环境)集成springboot及一些坑map程序package com.example.springbootintegrationtest.hadoop.mapreduce;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.ap原创 2021-03-21 16:51:15 · 163 阅读 · 0 评论 -
hdfs组件nn和2nn原理
nn与2nn原理图nn与2nn原理图说明1.准备环境,这样可以原理看的清楚1.停止hdfs环境 stop-dfs.sh2.删除之前的数据 rm -rf /tmp/hadoop-root/3.格式化 hdfs namenode -format4.重启hdfs start-dfs.sh2.效果说明:数据都清光了说明: 1.初始化有一个fsimage_0000000000000000000的镜像文件2.目前最新的镜像文件是fsimage_0000000000000000002原创 2021-03-14 12:22:55 · 726 阅读 · 0 评论 -
hdfs读写文件原理
hdfs写数据原理图hdfs写数据原理图说明1.客户端发起请求,namenode需要检测是否可以上传(磁盘大小,节点检查等)2.namenode检查完毕,觉得可以上传,那么会返回hdfs系统的一些配置,客户端需要根据这些要求(文件块大小之类的)进行上传3.客户端根据namenode要求,对a.mp4进行切块,比如namenode返回block.size=128M,客户端上传文件大小是300M, 那么需要切分为(128,128,44),分别上传.4.接收到客户端上传分片请求,namenode根据原创 2021-03-13 13:26:01 · 549 阅读 · 0 评论 -
hadoop(阿里云内网环境)集成springboot及一些坑
引入依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.3</version> <exclusions> <exclusion> <groupId>or原创 2021-03-10 22:45:18 · 1337 阅读 · 8 评论 -
hdfs特点及使用场景
概述hdfs也就是分布式文件系统,主要用来存储和管理大文件的一个文件系统原创 2021-02-25 00:02:45 · 877 阅读 · 0 评论 -
centos6桌面版安装
下载https://archive.kernel.org/centos-vault/选择对应的版本版本区别CentOS-6.9-x86_64-LiveDVD.iso 光盘运行版本(桌面版本)CentOS-6.9-x86_64-bin-DVD1.iso 正常安装版第du一张zhiCentOS-6.9-x86_64-bin-DVD2.iso 正常安装版第二张CentOS-6.9-x86_64-minimal.iso 最小化安装版,dao只有必须的软件包CentOS-6.9-x86_64-原创 2021-02-20 06:02:52 · 444 阅读 · 0 评论 -
hadoop伪分布式安装
环境准备1.安装好centos虚拟机2.虚拟机文件夹颜色未区分,编辑 ~/.bashrc文件 alias ls='ls --color'3.安装wget yum install wgety更换yum源阿里云所有的镜像源网址:https://developer.aliyun.com/mirror///查看cenos的发行版本cat /etc/centos-release//替换yum源文件,例如我发行版是8.0wget -O /etc/yum.repos.d/CentOS-Base.re原创 2021-02-19 10:11:33 · 151 阅读 · 2 评论 -
(二)hadoop之HDFS环境搭建
hadoop安装参考: https://blog.csdn.net/weixin_38312719/article/details/89142096配置HDFS所需配置1.配置JAVA_HOME原创 2019-04-09 15:29:19 · 288 阅读 · 0 评论 -
(一)hadoop之安装
安装JDK和设置环境变量参考:https://blog.csdn.net/weixin_38312719/article/details/89052062下载hadoopwget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz解压tar -xzvf ha...原创 2019-04-09 12:10:34 · 158 阅读 · 0 评论