hadoop
SweeneyZuo
热爱编程!热爱生活!
展开
-
hadoop完全分布式搭建
1、安装linux操作系统。本人的为CentOS6.8。(带不带图形化界面都无所谓)2、配置网络,固定ip。本人一般采用nat模式。3、关闭防火墙老版本centos命令----------------------------查看防火墙状态chkconfig iptables --listchkconfig ip6tables --list临时关闭防火墙(立即生效)...原创 2018-10-28 11:57:16 · 818 阅读 · 0 评论 -
MapReduce的shuffle过程
shuffle和排序 MapReduce确保每个reducer的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为shuffle。在此,我们将学习shuffle 是如何工作的,因为它有助于我们理解工作机制(如果需要优化MapReduce程序)。shuffle属于不断被优化和改进的代码库的部分。map端 map函数开始产生输出时,并不是简...翻译 2018-11-29 10:54:12 · 493 阅读 · 1 评论 -
剖析HDFS的文件写入
客户端通过对DistributedFileSystem对象调用create()来新建文件(步骤1)。DistributedFileSystem对namenode创建一个RPC调用,在文件系统的命名空间中新建一个文件,此时该文件中还没有相应的数据块(步骤2)。namenode执行各种不同的检查以确保这个文件不存在以及客户端有新建该文件的权限。如果这些检查均通过,namenode就会为创建新文件记录...原创 2018-11-22 08:37:08 · 488 阅读 · 0 评论 -
剖析MapReduce作业运行机制
作业的提交Job的submit()方法创建一个内部的JobSummiter 实例,并且调用其submitJobInternal()方法(参见步骤1)。提交作业后,waitForCompletion()每秒轮询作业的进度,如果发现自上次报告后有改变,便把进度报告到控制台。作业完成后,如果成功,就显示作业计数器;如果失败,则导致作业失败的错误被记录到控制台。JobSummiter所实现的作业...原创 2018-11-21 20:02:34 · 592 阅读 · 0 评论 -
搭建High Availability(HA)集群使用 the Quorum Journal Manager(QJM)
一、手动HA1、如果是创建全新的HA集群,请先完成这篇博客的前18步。2、修改core-site.xml<property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value></property><property>原创 2018-11-04 16:00:44 · 409 阅读 · 0 评论 -
ZooKeeper3.4.6的安装
Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调。ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的服务,应用程序最初通常会吝啬它们,这使得它们在变化的情况下变得脆弱并且难以管理。即使正确完...原创 2018-11-04 15:40:37 · 386 阅读 · 0 评论 -
namenode和datanode
HDFS集群有两类节点以管理节点-工作节点模式运行,即一个namenode(管理节点)和多个datanode(工作节点)。 namenode维护命名空间、保存元数据和用户对hdfs的操作、副本数等等,管理文件系统命名空间的主服务器和管理客户端对文件的访问组成,它还确定了块到DataNode的映射。datanodedatanode是文件系统的工作节点。DataNode负责提...原创 2018-11-01 20:52:59 · 644 阅读 · 0 评论 -
windows下搭建Hadoop开发环境
1、将集群上的hadoop压缩包解压到windows下。2、将hadoop-eclipse-plugin-2.7.3.jar放在eclipse中的plugin目录下。重启eclipse3、在eclipse->preferences中选择windows下的hadoop解压包路径。4、选择hadoop开发环境。5、新建hadoop location。需要将配置文件改成和集群上的...原创 2018-10-24 21:25:23 · 334 阅读 · 0 评论 -
Hadoop问题集
1、提交远程mr任务如果在eclipse控制台打印信息不是红色字体或者沒有输出在HADOOP_HONE下搜索log4j.propertites,将只有10k左右大小的log4j.properties放到src下。2、提交远程mr任务如果出现用户权限问题,大概有5种解决办法。1、将windows下的用户名(c:\windows\users\用户名)修改为集群上的用户名一致。2、在w...原创 2018-10-24 21:24:48 · 282 阅读 · 0 评论 -
让mapreduce任务在远程集群上运行
一、编写好map和reduce方法。二、下载集群上的core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml四个文件并放到src根目录下。三、编写驱动程序,然后在获取Job对象之前,添加以下代码:conf.set("mapreduce.app-submission.cross-platform", "true");也可以在...原创 2018-10-23 21:23:14 · 1157 阅读 · 0 评论 -
剖析HDFS文件的读取
客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说,这个对象是DistributedFileSystem的一个实例(图中的步骤1)。DistributedFileSystem通过使用远程过程调用(RPC)来调用namenode,以确定文件起始块的位置(步骤2)。 对于每一个块,namenode返回存有该块副本的datanode地址。此外,这些d...原创 2018-11-27 08:50:29 · 471 阅读 · 0 评论