hadoop
文章平均质量分 81
a414129902
这个作者很懒,什么都没留下…
展开
-
hadoop集群搭建
第一步:准备2台虚拟机或者物理机(我准备的机器IP:192.168.195.159,192.168.202.145(centos))第二步:配置hosts文件vi /etc/hosts加入192.168.195.159 master 192.168.202.145 slave2台机器都要加入这2行第三步:建立hadoop运行帐号/usr/sbin/groupa...原创 2015-07-31 13:52:45 · 101 阅读 · 0 评论 -
Hadoop MapReduce开发最佳实践
MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop中hello word程序)不仅要熟悉MapRuduce模型,还要了解Linux命令(尽管有Cygwin,但在Windows下运行MapRuduce仍然很麻烦),此外还要学习程序的打包、部署、提交job、调试等技能,这足以让很多学习者望而退步。所以如何提高MapReduce开发效率便成了大家很关注...原创 2016-02-25 11:21:58 · 104 阅读 · 0 评论 -
Hadoop管理员的十个最佳实践
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hadoop使...原创 2016-02-25 11:20:09 · 97 阅读 · 0 评论 -
hadoop中NameNode、DataNode和Client三者之间协作关系及通信方式介绍
1)NameNode、DataNode和Client NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。DataNode是文件存储的基本单元,它将Block存储...原创 2016-02-25 11:13:25 · 171 阅读 · 0 评论 -
hadoop参数配置优化
hadoop.tmp.dir默认值: /tmp说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。fs.trash.interval默认值: 0说明: 这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时...原创 2016-02-25 10:32:01 · 113 阅读 · 0 评论 -
MapReduce:Job性能调优总结
Benchmark: 对1G数据做wordcount 部分内容: ********************************* 硬件级别 提高磁盘IO的性能 noatime 我为两台slaves server设置了noatime. vi /etc/fstab.map task的平均执行时间减少两秒,这影响硬盘IO的性能,shuffle的时间也相应地减少了1分钟,不影响reduce的执行时...原创 2016-01-27 12:35:17 · 101 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这...原创 2016-01-27 09:30:08 · 98 阅读 · 0 评论 -
Hadoop Job Tuning
Hadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交换吞吐量也在面临考验,由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发,针对Hadoop Job优化提出了一些观点,不包含HDFS的优化。Job Tracker Related严格来说,下面这个配...原创 2016-01-11 17:55:12 · 121 阅读 · 0 评论 -
hadoop 学习笔记:mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop...原创 2016-01-08 10:51:14 · 196 阅读 · 0 评论 -
Namenode HA原理详解(脑裂)
Namenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现。 为什么要Namenode HA?1. NameNode High Availability即高可用。2. NameNode 很重要,挂掉会导致存储停止服务,无法进行数据的读写,基于此NameNode的计算(...原创 2017-05-09 10:46:32 · 156 阅读 · 0 评论 -
为Hadoop集群选择合适的硬件配置
随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多)。在这个博客帖子中,你将会学到一些工作...原创 2017-05-08 12:59:13 · 258 阅读 · 0 评论 -
Hadoop2.6.0 + zookeeper集群环境搭建
前提:已安装好centos6.5操作系统 Hadoop HA(QJM)集群配置规划IPHostname备注192.168.100.101h1m1NN(active)、RM、ZKFC192.168.100.102...原创 2017-05-05 15:05:17 · 188 阅读 · 0 评论 -
ZKFailoverController( zkfc)介绍
1.基本原理zk的基本特性:(1) 可靠存储小量数据且提供强一致性(2) ephemeral node, 在创建它的客户端关闭后,可以自动删除(3) 对于node状态的变化,可以提供异步的通知(watcher)zk在zkfc中可以提供的功能:(1) Failure detector: 及时发现出故障的NN,并通知zkfc(2) Active node locator: 帮助客户端定位哪个...原创 2017-05-05 14:54:54 · 294 阅读 · 0 评论 -
MapReduce: 提高MapReduce性能的七点建议[译]
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没有...原创 2015-11-06 16:06:41 · 100 阅读 · 0 评论 -
Hadoop 2.x的DistributedCache无法工作的问题
现象:和这个帖子描述的一样,简单说来就是,在Hadoop 2.x上,用新的DistributedCache的API,在mapper中会获取不到这个cache文件。下面就详细地描述一下新旧API的用法区别以及解决办法。『1』旧API将HDFS文件添加到distributed cache中:12Configuration conf = job.getConfi...原创 2015-11-04 09:24:22 · 115 阅读 · 0 评论 -
浅析Mapper类之setup()和cleanup()方法
hadoop中的MapReduce框架里已经预定义了相关的接口,其中如Mapper类下的方法setup()和cleanup()。setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作,导致重复,程序运行效率不高!clean...原创 2015-11-04 09:23:24 · 196 阅读 · 0 评论 -
hadoop入门--简单的MapReduce案例
分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中。整个流程如图:Mapper任务的执行过程详解每个Mapper任务是一个java进程,它会读取HDFS中的...原创 2015-09-08 19:00:54 · 119 阅读 · 0 评论 -
hadoop,hive启用lzo压缩和创建lzo索引
启用lzo压缩对于小规模集群还是很有用的,压缩比率大概能达到原始日志大小的1/3。同时解压缩速度也比较快,Hadoop原生是支持gzip和bzip2压缩的,这两种压缩虽然压缩比率比lzo更大,但是在做map reduce解压缩的时候,慢的不能忍,所以通常不会用gzip或者bzip2。相同数据量,gzip的mr速度大概是lzo的1.5-2倍,而bzip2是lzo的3-4倍。不过lzo不比gzi...原创 2015-09-01 15:52:17 · 200 阅读 · 0 评论 -
HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。 ③ 适合...原创 2016-03-15 15:12:55 · 118 阅读 · 0 评论