Hadoop
我是玄离大人
分享大数据和IT世界的所见所闻
展开
-
yarn 资源调度
1.什么是yarnyarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架(mr spark flink)提供资源的管理和调度,主要用于管理集群当中的资源( CPU内存 磁盘网络IO)以及在yarn上面的各种任务....原创 2021-03-31 23:26:35 · 240 阅读 · 0 评论 -
hadoop,WordCount,大厂面试题,手撸mapreduce 单词统计
有的大厂面试需要你手撸一个wordcount的例子,今天我们就从头到尾现一遍1.在开始编程工作之前,先要规划好wordcount的步骤,规划的流程图和mapreduce原理如下:2.前期准备(1) 启动hadoop和日志(2).准备要处理的文件,并上传到hdfs分布式文件系统中(3) 将文件上传到hdfs文件系统中hdfs dfs -mkdir /w...原创 2019-08-22 10:50:36 · 235 阅读 · 0 评论 -
HDFS中NameNode和DataNode的作用
NameNode作用NameNode在内存中保存着整个文件系统的名称空间和文件数据块的地址映射整个HDFS可存储的文件数受限于NameNode的内存大小1.NameNode元数据信息文件名,文件目录结构,文件属性(生成时间,副本数,权限)每个文件的块列表.以及列表中的块与块所在的DataNode之间的地址映射关系在内存中加载文件系统中每个文件和每个数据块的引用关系(文件,blo...原创 2019-08-17 19:45:34 · 15045 阅读 · 0 评论 -
linux 下安装maven
1.如果没有wget ,下载yum -y install wget2.下载对应的版本mavenwget http://mirror.bit.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz3.解压安装包到对应的目录下 tar -zxvf apache-maven-3.3.9...原创 2019-09-01 12:40:34 · 317 阅读 · 0 评论