hadoop
文章平均质量分 73
浅汐王
这个作者很懒,什么都没留下…
展开
-
hadoop编译
1、检查是否安装过,是否有残留,检查hosts配置ps -ef | grep hadoopfind / -name hadoop[hadoop@hadoop001 ~]$ cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1原创 2017-10-10 22:46:57 · 386 阅读 · 0 评论 -
hadoop文件的读写流程
1.副本放置策略第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上;第二副本:放置在于第一个副本不同的机架的节点上;第三副本:与第二个副本相同机架的不同节点上;如果还有更多的副本:随机放在节点中;2.文件的写流程1.客户端会调用DistributedFileSystem对象的create(filePath)原创 2017-10-14 21:47:05 · 2404 阅读 · 0 评论 -
HDFS数据副本存放策略
1.副本放置策略第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上;第二副本:放置在于第一个副本不同的机架的节点上;第三副本:与第二个副本相同机架的不同节点上;如果还有更多的副本:随机放在节点中;HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。目前实现的副原创 2017-12-10 17:54:30 · 3631 阅读 · 0 评论 -
HDFS NameNode内存全景
一、概述从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外,本文基于社区版本Hadoop-2.4.1[1][2],虽然2.4.1转载 2018-01-19 10:39:58 · 238 阅读 · 0 评论 -
HDFS NameNode内存详解
前言《HDFS NameNode内存全景》中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题,还有业界进行横向扩展方面的多种可借鉴解决方案。事实上,对NameNode实施横向扩展前,会面临常驻内存随数据规模持续增长的情况,为此需要经历不断调整NameNode内存的堆空间大小的过程,期间会遇到几个问题:当前转载 2018-01-19 11:17:04 · 320 阅读 · 0 评论 -
Hadoop小文件的问题
小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,没一个object占用150 bytes的内存空间。所以,...原创 2018-03-02 23:41:36 · 451 阅读 · 0 评论 -
Hadoop2 HA模式下的FSImage和EditsLog合并过程
一、什么是FSImage和EditsLog 我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。那么HDFS是如何及时更新这些metadata的呢? 在HDFS中主要是通过两个组件FSIm...原创 2018-04-13 20:36:59 · 1078 阅读 · 0 评论 -
Permission denied: user=dr.who, access=READ_EXECUTE, inode="/tmp":root:supergroup:drwx------
在hadoop2中查看网页中的/tmp目录出现下面的错误:Permission denied: user=dr.who, access=READ_EXECUTE inode="/tmp"修改一下权限[root@hadoop01 bin]# ./hdfs dfs -chmod -R 755 /tmp[root@hadoop01 bin]# ./hdfs dfs -chmod -R 75...原创 2019-03-20 10:31:38 · 843 阅读 · 0 评论 -
记录HIve跑MR,AM无法申请资源的问题
以下是运行的日志:Query ID = mac_20190318111010_2d82bbe8-b689-4dcf-adfe-7bf7c742c669Total jobs = 3Launching Job 1 out of 3Number of reduce tasks is set to 0 since there's no reduce operatorStarting Jo...原创 2019-03-18 17:24:57 · 1087 阅读 · 0 评论 -
MapReduce2和MapReduce1的架构设计对比
MapReduce2 架构设计:1:用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。2:ResourceManager为该应用程序分配第一个Container,并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。3:Applic原创 2017-10-14 22:00:07 · 1026 阅读 · 0 评论 -
Hadoop命令大全
1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir这条命令会显示作业的细节信息,失败和终止的任务细节。原创 2017-10-11 20:17:20 · 363 阅读 · 0 评论 -
YARN and MapReduce的【内存】优化配置详解
在Hadoop2.x中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container。使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示 YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应转载 2017-10-27 16:40:57 · 228 阅读 · 0 评论 -
Hadoop Streaming框架学习(二)
1.常用Streaming命令介绍 使用下面的命令运行Streaming MapReduce程序:1:$HADOOP_HOME/bin/hadoop/hadoop streaming args其中args是streaming参数,下面是参数列表:-input 输入数据路径-output 输出数据路径原创 2017-10-07 16:11:41 · 286 阅读 · 0 评论 -
Hadoop Streaming统计电影出现的次数
map.py#!/usr/bin/python# encoding:utf-8import sysword2count = {}for line in sys.stdin:line = line.strip()splited = line.split(',')[0]if "捉妖记" in splited:print '%s\t%s' % (spl原创 2017-10-07 16:09:50 · 1079 阅读 · 0 评论 -
Hadoop根据SecondaryNameNode恢复NameNode
1.制造NameNode宕机的情况1.1):kill 掉NameNode的进程[plain] view plain copy[hadoop@hadoop bin]$ kill -9 13481 1.2):删除dfs.name.dir所指向的文件夹,这里是/home/hadoop/hdfs/name[pla转载 2017-10-08 22:48:50 · 246 阅读 · 0 评论 -
Hadoop小文件问题及解决方案
1.概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1千万个小文件,每个文件占用一个block,则NameNode大约需要2G空间。如果存储一亿个文件,则NameNode需要20G空间。这样NameNode内存容量严重转载 2017-10-08 22:46:36 · 421 阅读 · 0 评论 -
MapReduce表连接操作之Map端join
一:背景MapReduce提供了表连接操作其中包括Map端join、Reduce端join还有半连接,现在我们要讨论的是Map端join,Map端join是指数据到达map处理函数之前进行合并的,效率要远远高于Reduce端join,因为Reduce端join是把所有的数据都经过Shuffle,非常消耗资源。二:技术实现基本思路:(1):需要join的两个文件,一个存储在H转载 2017-10-08 20:51:24 · 364 阅读 · 0 评论 -
hadoop伪分布式环境的搭建
软件安装的目录:/opt/modules/安装0)说明1.系统:Centos 64位2.关闭防火墙和SELinuxservice iptables statusservice iptables stop永久关闭:chkconfig iptables offvi /etc/sysconfig/selinux设置SELinux-disabled3.设置静态IP地址vi/etc/sysconfig/ne...原创 2017-09-30 16:36:01 · 313 阅读 · 0 评论 -
如何编译Hadoop-Eclipse插件
一、相关软件的安装和配置1.JDK的安装和配置2.Ecplise的安装和配置3.Ant的安装和配置Ant的安装和配置:1.下载http://ant.apache.org/bindownload.cgi2.解压到一个目录3.环境变量额配置4.cmd测试一下是否配置正确学习参考地址:http://ke.dajiangtai.com/index原创 2017-09-30 16:39:55 · 341 阅读 · 0 评论 -
HDFS NameNode重启优化
一、背景在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所以优化NameNode重启非常关键。本文基于Hadoop-2.x和HA with QJM社区架构和系统设计(如图1所示),通过梳理NameNode重启流程,并在此基础上,阐述对NameNode重启优化实转载 2017-10-10 23:14:21 · 286 阅读 · 0 评论 -
YARN的Memory和CPU调优配置详解
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据转载 2017-10-27 16:38:19 · 889 阅读 · 0 评论 -
Hadoop Streaming框架学习(一)
1.Hadoop&Streaming简介 1.1 Hadoop简介 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架,这个框架解决了诸如数据分布式存储,作业调度,容错,机器间通信等复杂问题,可以让没有分布式处理经验的工程师非常简单的写出并行分布式程序。原创 2017-10-07 16:11:02 · 194 阅读 · 0 评论