Hadoop
文章平均质量分 50
Hadoop原理和配置
吴香香
忠于你热爱的一切
展开
-
ResourceManager中的Scheduler(调度器)和ApplicationManager(应用程序管理器) 还有YARN的执行任务流程
参考https://blog.csdn.net/qq_25948717/article/details/80554809根据下图讲解首先说两个概念:调度器和应用程序管理器Hadoop2.x中使用的调度器是Scheduler,它的职能仅仅是根据各个应用程序的资源需求进行资源分配,如下图再下来就是,应用程序管理器Applications Manager,它的职能是...原创 2019-08-15 18:13:00 · 1387 阅读 · 1 评论 -
MapTask和ReduceTask 运行的底层细节 shuffle-map阶段和 shuffle-reduce阶段 ????
参考https://blog.csdn.net/u014313009/article/details/38072269首先开始的是 shuffle-map阶段的流程依据上图讲解1、Partition操作map的输出结果是多个键值对(key和value),将由reduce合并,而集群中有多个reduce。map中会根据区间算法(计算key的哈希值,再对reduce数量...原创 2019-08-16 10:42:00 · 235 阅读 · 0 评论 -
Hadoop数据本地化策略原理
参考https://blog.csdn.net/shenshengsu1990/article/details/94625194结合下图来讲解 ......JobTracker接收到任务之后,会去访问NameNode获取要处理的文件信息NameNode将文件块的一些信息返回给JobTrackerJobTracker会根据文件信息,进行切片(逻辑切片)每一...原创 2019-08-16 14:30:00 · 312 阅读 · 0 评论 -
理解MapReduce中的切片+分区 ????
如上图,如果我HDFS中,word目录下有这四个文件,那么它能分为几个切片呢???**** MapTask的数量=切片数量切块也分为两种一种是物理切块,一种是逻辑切块前者是将文件真正的变成文件块后者是用对象来封装每个文件块的信息,比如文件夹的起始位置、和长度。这样的来分切块的作用,假如我一个文件是129M,那么我第二个切块一定是从这个文件的128M之后开始查找数据...原创 2019-08-15 14:29:00 · 405 阅读 · 0 评论 -
MapReduce中的combine有什么作用???
作用就是,合并...... 看下图combine把map方法产生的多个key和value。合并到一个新的key和value,在传入到reducer中合并的目的是为了减少网络传输...原创 2019-08-14 10:54:00 · 675 阅读 · 0 评论 -
快来看看,如何搭建hadoop集群???
此过程没有在服务器搭建的具体步骤,仅有思路zookeeper集群管控Hadoop2.0之后,达到了元数据(用于存储NameNode寻找DataNode的信息)的实时备份,所有有两台NameNode(standby、active)。不管你Hadoop集群有多少节点,NameNode只有两个两个NameNode为了数据之间的同步,会通过一组JournalNodes的独立进程进行相...原创 2019-08-15 16:12:00 · 119 阅读 · 0 评论 -
用 hadoop + flume + sqoop + mysql + hive 搭建的项目 ??? 记录一下流程
我之前hadoop的环境都配好了今天主要配置其他几种第一步是flume的环境,这个直接解压压缩包,编辑一个conf文件主要的功能,是监听一个目录,当此目录有数据或者文件发生变化时候,就记录然后通过sink发送到另外一台虚拟机的hdfs这样我另外一台虚拟机的hdfs上面就有数据了第二步是hive的环境,这个也是直接解压,进入bin目录就能启动当我在另外一个...原创 2019-08-19 17:37:00 · 224 阅读 · 0 评论 -
Hadoop集群的启动步骤 ???
关闭集群的命令 stop-all.sh1.先启动zookeeper集群在zookeeper安装目录的bin目录下执行,sh zkServer.sh start出现leader和follower时候说明启动成功如果是第一次启动Hadoop集群,需要先将hdfs注册到zookeeper集群中,不是第一次 则忽略 命令是 hdfs zkfc -formatZK2....原创 2019-08-20 16:20:00 · 1183 阅读 · 0 评论 -
收集日志 ----> Flume的日志服务器 ---> Flume的中心服务器 ---> 将数据存到HDFS
遇到的问题:书写问题,一定要写仔细了hadoop集群的名称,flume服务器上一定要有hadoop环境变量,没有的话,要将hadoop目录下的所有配置文件 拷贝到flume的conf目录下最后遇到的问题是,Unable to load native-hadoop library for your platform... using builtin-java classes...原创 2019-08-31 12:15:00 · 187 阅读 · 0 评论 -
Hadoop中如果Mapper和Reducer的执行结果一致时候 ????
参考https://www.cnblogs.com/dtj007/p/5485629.html因为我们大家知道,分别有两种设置---- 一种设置Mapper 一种是Reducer如果一样的话,我们只需要记得,只设置Reducer的返回执行结果即可如果不一样的话,都需要设置的给张图片.....如果只有Mapper没有Reducer阶...原创 2019-08-13 15:55:00 · 193 阅读 · 0 评论 -
Hadoop中的分区Partitioner???
参考https://www.cnblogs.com/edisonchou/p/4297828.htmlHadoop中分区,如果不指定的话,他会使用自带的HashPartitioner如果你业务中有需求,需要使用分区来查看文件的时候,就需要自己定义分区来使用例如上图,需要统计手机号码的信息,就需要剔除电话号码时???那你就需要自定义两个分区?这时候,结果就会分...原创 2019-08-13 16:46:00 · 255 阅读 · 0 评论 -
配置recoursemanage备份节点的时候,访问虚拟机中的主机名不能映射ip地址 ???...
第一步看linux主机中看看配置主机名文件对不对?如果对就配置本地电脑的 hosts映射文件....再试一下就可以了原创 2019-08-08 17:45:00 · 184 阅读 · 0 评论 -
配置hadoop集群时,忘记配置免密登陆????
这个忘记 要输好多次密码的 。。第一步 不用输入密码的 !!!!!!!!!一定要三台机器 都验证一样,分别使用 ssh 主机名 验证 包括自己的主机...原创 2019-08-08 17:01:00 · 192 阅读 · 0 评论 -
idea的hadoop插件 连接 HDFS集群
blank disappeared原创 2020-05-02 11:10:50 · 774 阅读 · 0 评论