hdoop
文章平均质量分 73
shining0903lxy
期待年薪100
展开
-
hadoop中mapJoin和reuceJoin的区别和使用场景
sql 语句:select order.id, product.pname, order.amount from user join order on product.pid = order.pid 用mr 实现join ,这里包括mapJoin 和 reduceJoinreduceJoin的工作原理mapTask:对数据进行打标签区分数据不同源连接on 字段为key, 剩余部分+......原创 2020-04-25 22:19:25 · 423 阅读 · 0 评论 -
hadoop 中yarn 详解(yarn 架构&工作机制&作业提交全过程&yarn 的资源调度器)
yarn 是hadoop 2.x 中出现的组件,目的是把资源调度和程序解耦yarn 是什么yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。mr 理解为程序yarn 理解为程序运行的操作系统yarn 的作用负责为mr提供服务器运算资源yarn 架构yarn 主要包括 rm...原创 2020-04-25 12:18:26 · 657 阅读 · 0 评论 -
hadoop 的归档archive的使用
archive 使用场景hadoop 文件元数据都保存在namenode中,小文件过多会造成nn 内存耗尽,一个文件一般占用nn 的120kb 左右的内存,防止小文件过多,小文件采用归档archive 的方式使好多小文件被nn看成是一个文件archive 作用减少nn 压力,让多个小文件被nn 看成是一个文件archivem命令的使用hadoop archive -archiveName...原创 2020-04-24 22:40:03 · 530 阅读 · 1 评论 -
hadoop 重要源码
mapreduce job 提交流程源码分区源码切片源码排序源码压缩源码原创 2020-04-23 23:17:06 · 189 阅读 · 0 评论 -
hadoop中分区详解
分区的目的就是把不同数据输出到不同reduceTask 最终到输出不同文件中1.hadoop 的默认分区原则:mapTask 之后的数据进入哪个reduceTask的规则默认规则是:按照keyd的hashCode % reduceTask 数量 = 分区号默认reduceTask 数量为1可以在driver 端进行设置2. hadoop 的分区作用在那个位置mapTask 输...原创 2020-04-21 17:34:12 · 4226 阅读 · 0 评论 -
mapreduce
mapreduce的概念mapreduce 是分布式计算框架所谓分布式就是很多机器完成一件事情~~mapreduce 功能将用户自己的编写的业务代码+ mr 自带默认组件 组成一个完成一个分布式程序写一个分布式程序和写单节点程序一样,mr 帮助实现分布式计算mapreduce的缺点因为中间数据写磁盘,所以mr速度比较慢所以不适合做实时mapreduce的进程??MrAppMas...原创 2020-04-15 22:33:11 · 131 阅读 · 0 评论 -
hadoop2.x的面试题及详解
简述apache hadoop的安装过程这里说明hadoop 主要有三大发行版本apache:最原始的版本,方便学习cloudera(cdh版本):大型互联网使用的较多,解决版本兼容问题Hortonworks(hdp版本):几乎不用apache hadoop 安装过程安装jdk—安装ssh免密—安装apache hadoop—nn 格式化–启动hadoop 需要哪些配置文件8个 c...原创 2020-04-14 19:10:07 · 310 阅读 · 0 评论 -
hadoop1.x 和 hadoop2.x版本在yarn 方面的区别
hadoop1.x 版本架构如下hdfs+MapReduce,hdfs 沒问题,mapreduce 有以下缺点针对mapreduce 以上的缺点,以及在1.X 版本中JobTracker既要负责资源调度又要负责任务调度hadoop2.x 做了如下改变,只是针对mapreduce 做了改变,hdfs变动比较少hadoop2.x 目前缺点运行比较慢算子少相当与只有map 和reduc...原创 2020-03-05 18:54:53 · 570 阅读 · 0 评论