![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop2调优
文章平均质量分 60
过云雨后
这个作者很懒,什么都没留下…
展开
-
Hadoop机架感知
背景 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分块blo转载 2015-01-15 15:10:35 · 425 阅读 · 0 评论 -
Hadoop推测执行(以空间换取时间)
1. 背景 Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生,Hadoop会为该task启动sp转载 2015-01-15 15:59:42 · 1434 阅读 · 0 评论 -
Hadoop2调优(一):如何控制job的map任务和reduce任务的数量
在运行MapReduce任务的时候如何避免这种情况! 100多个map任务,但是只有1个reduce任务; 此时在mapred-site.xml中修改配置 mapred.map.tasks10As a rule of thumb, use 10x the number of slaves(i.e., number of tasktrackers).原创 2014-12-30 17:28:18 · 1741 阅读 · 0 评论 -
Hadoop2异常分析(一):hdfs移动数据至 hive,为什么原数据没有了?
在向hive表中添加数据的时候,location指定的位置如果是本地文件,则会将本地文件复制一份至表中; 但是如果指定location数据在hdfs上面(通常情况下),则只是对数据进行移动,你会发现这个过程非常快;原创 2014-12-30 17:33:55 · 1089 阅读 · 0 评论 -
hadoop2.20+hive+sqoop+mysql数据处理案例
一、业务说明 使用Hadoop2及其他开源框架,对本地的日志文件进行处理,将处理后需要的数据(PV、UV...)重新导入到关系型数据库(Mysql)中,使用Java程序对结果数据进行处理,组织成报表的形式在数据后台进行展示。 二、为什么使用Hadoop(开发动机) 现有的日志处理方式,是采用纯的java程序来计算的,对于大数据的日志文件来说,这种方案在处理速度、IO占用、数据备份及资源原创 2015-02-05 18:24:33 · 2117 阅读 · 3 评论 -
Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(一)
Hadoop2.2.0+HA+zookeeper3.4.5+体系结构+错误处理 心血之作,在熟悉hadoop2架构的过程耽误了太长时间,在搭建环境过程遇到一些问题,这些问题一直卡在那儿,不得以解决,耽误了时间。最后,千寻万寻,把问题解决,多谢在过程提供帮助的大侠。这篇文章中,我也会把自己遇到的问题给列出来,帮助后来者进一步的学习。 这篇文章结合自己实际测试转载 2015-01-04 14:20:48 · 878 阅读 · 0 评论 -
Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(二)
Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+体系结构+错误处理(2) 这篇文章,主要是针对zookeeper和hadoop集群的整体测试,以及自己在实际过程遇到的问题和解决思路。 如有转载,请注意明出处! http://blog.csdn.net/yczws1/a转载 2015-01-04 14:22:46 · 1368 阅读 · 0 评论 -
Hadoop2.2.0使用笔记总结(一)
1、执行Mapreduce程序卡住 安装完毕后执行wordcount程序时,mapreduce任务卡住,注意修改hosts文件,将ip地址映射到主机名 2、非root用户对文件是否有读写权限? dfs.permissions false 3、eclipse执行mapReduce程序报空指针 Eclipse运行mapreduce需要配置hadoop环原创 2015-03-24 13:55:49 · 536 阅读 · 0 评论 -
Hadoop常见错误解析
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。 修改办法: 修改2个文件。 /etc/security/limits.转载 2015-04-01 10:42:29 · 3156 阅读 · 0 评论