- 博客(6)
- 收藏
- 关注
转载 Hadoop性能调优
转载自:http://blog.csdn.net/yzhang6_10/article/details/53151096 Hadoop性能调优 1. 简介 Hadoop性能调优不仅涉及Hadoop本身的性能调优,还涉及更底层的硬件、操作系统和Java虚拟机等系统的调优。具体包括以下四部分,系统对这几部分适当地进行调优均可能给Hadoop带来性能提升。 Hadoop(JobTra
2017-11-23 20:17:46 1073
转载 Hadoop二次排序及MapReduce处理流程实例详解
一、概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的,在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现原理及整个MapReduce框架的处理流程的分析还是有非常大的出入,而且部分分析是没有经过验证的。本文将通过一个实际的MapRe
2017-11-23 15:49:33 261
转载 HDFS实现其高可靠性的策略及机制
分布式文件系统(HDFS)的高可靠性主要是由多种策略及机制共同作用实现的。 主要有: 冗余副本策略 可以指定数据文件的副本数量,默认是3; 保证所有的数据块都有副本,不至于在一个datanode宕机后,数据的丢失。 机架策略 集群一般放在不同机架上,机架间带宽要比机架内带宽要小; HDFS具有“机架感知”能力,它能自动实现在本机架上存放一个副本,然后在其它机架再存放另一副本,
2017-11-21 11:04:33 1496 1
转载 Hadoop 任务执行方面的优化
1. 推测式执行: 如果jobtracker 发现有拖后的任务,会再启动一个相同的备份任务,然后哪个先执行完就会去kill掉另一个,因此会在监控页面上经常能看到正常执行完的作业会有被kill掉的任务。 2.推测式执行缺省打开,但如果是代码问题,并不能解决问题,而且会使集群更慢,通过在mapred-site.xml 配置文件中设置 mapred.map.tasks.speculati
2017-11-21 10:55:19 243
转载 linux下profile和bashrc区别 + Linux中的权限
在Linux配置环境时遇到了点问题,转载一篇 1. /etc/profile 用来设置系统环境参数,比如$PATH. 这里面的环境变量是对系统内所有用户生效的。 2. /etc/bashrc 这个文件设置系统bash shell相关的东西,对系统内所有用户生效。只要用户运行bash命令,那么这里面的东西就在起作用。 3. ~/.bash_profile 用来设置一些环境变量,功
2017-11-17 15:40:13 1043
转载 hadoop 文件分块,block与split关系
hadoop的分块有两部分,其中第一部分更为人熟知一点。 第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由hadoop-default.xml里配置选项进行划分。 dfs.block.size 67108864 The default block size
2017-11-12 17:10:33 1288
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人