hadoop
mztt3010
If you see as I see,if you would seek as I seek.
展开
-
我理解的shuffle
HDFS里的文件是分块存放在Datanode上面的,mapper程序也是跑在各个节点上的。这里就涉及到一个问题,哪一个节点上的mapper读哪一些节点上的文件块呢?hadoop会自动将这个文件分片(split),得到好多split,这每一个split放到一个节点的一个mapper里面去读。然后在每一台有mapper任务的节点上都执行了这么一个操作,将分得到的split切割成一行一行的键值对,然...原创 2018-12-26 21:11:47 · 349 阅读 · 0 评论 -
hadoop总结-配置
分布式部署:虚拟机,jdkhostname, hosts,关闭防火墙,selinux永久修改主机名centos6 (/etc/sysconfig/network) 或者 centos7 (/etc/hostname)关闭selinux /etc/sysconfig/selinux (防火墙和selinux开启会使许多服务端口关闭,挺麻烦,关了吧...原创 2018-12-23 15:34:19 · 170 阅读 · 0 评论 -
hadoop总结-组件&简介
数据并行,处理串行!模块理解:HDFS:是一个高度容错性的系统,提供高吞吐量的数据访问,突破硬盘大小的限制,适合大规模数据集上的应用,可为yarn和Hbase服务。Yarn:通用的资源协同任务调度框架,解决namenode负载太大和其他问题,提高资源利用率,具有良好的扩展性,可用性,可靠性,向后兼容性。在YARN中,ResourceManager负责集群中所有资源的统一管理和分配,它接收来...原创 2018-12-23 21:06:17 · 167 阅读 · 0 评论 -
hadoop总结-进程&功能
namenode :Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。它维护着文件系统树文件夹的元数据,元数据包括:fsimage:快照,存储某一时段NameNode内存元数据信息;edits:操作日志文件;Namenode是所有HDFS元数据的仲裁者和管理者,用户数据永远不会流过Namenode。安全模式:Namenode启...原创 2018-12-24 14:43:37 · 160 阅读 · 0 评论 -
hadoop ha 分布式高可用集群的爬坑之旅
看到好多关于hadoop ha的介绍,挺诱人,中间耽搁了一段时间,现在终于把它做了,我在原先的集群之上,花了5个多小时根据官网把hadoop ha 配置了,以下是这次的总结:配置启动查看HDFS ha 的配置**hdfs-site.xml **<?xml-stylesheet type="text/xsl" href="configuration.xsl&quo原创 2019-01-02 17:36:32 · 262 阅读 · 0 评论