- 博客(4)
- 资源 (3)
- 收藏
- 关注
原创 对参数进行调优
查看linux的服务,可以关闭不必要的服务ntsysv停止打印服务#/etc/init.d/cups stop#chkconfig cups off关闭ipv6#vim /etc/modprobe.conf添加内容alias net-pf-10 offalias ipv6 off 调整文件最大打开数查看: ulimit -a 结果:open files (-n) 1024临时修改: ulim...
2018-06-13 09:18:22 506
原创 从应用程序角度进行优化
(1) 避免不必要的reduce任务如果mapreduce程序中reduce是不必要的,那么我们可以在map中处理数据,Reducer设置为0。这样避免了多余的reduce任务。(2) 为job添加一个Combiner为job添加一个combiner可以大大减少shuffle阶段从map task拷贝给远程reducetask的数据量。一般而言,combiner与reducer相同。(3) 根据处...
2018-06-13 09:16:08 293
原创 hadoop框架中怎么来优化
(1) 从应用程序角度进行优化。由于mapreduce是迭代逐行解析数据文件的,怎样在迭代的情况下,编写高效率的应用程序,是一种优化思路。(2) 对Hadoop参数进行调优。当前hadoop系统有190多个配置参数,怎样调整这些参数,使hadoop作业运行尽可能的快,也是一种优化思路。(3) 从系统实现角度进行优化。这种优化难度是最大的,它是从hadoop实现机制角度,发现当前Hadoop设计...
2018-06-13 09:15:18 1063
原创 mapreduce怎么处理数据倾斜问题?
数据倾斜:map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完,此称之为数据倾斜。用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提供...
2018-06-13 09:14:34 843
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人