- 博客(25)
- 收藏
- 关注
原创 Hadoop实践(四)---性能调优
Hadoop的主要吸引力之一就是它的线性可扩展性。许多作业都可以通过添加更多的机器来加速。Hadoop在性能调优上有一些特定的手段和技巧,总体来说颇有成效。1、通过Combiner来减少网络流量Combiner可以减少在map和reduce之间的shuffle的数据量,较低的网络流量缩短了执行时间2、减少输入数据量在处理大型数据集时,有相当一部分时间花费在扫描磁盘中的数据。减少需要读取的字节数,可以
2017-06-29 18:54:12 511
原创 Hadoop实践(四)---生成集群上的监视和调试
成功的在伪分布集群中运行作业之后,可以将实际数据放在生产集群上运行。伪分布式和生产集群的区别:1- 伪分布模式下只有一个节点,所以的日志文件都放在单独的目录/logs中,可以在本地访问1- 在全分布集群中,每个节点都有自己的/logs目录保存其日志文件,通过特定节点上的日志文件来诊断该节点的问题2- 集群中各个守护进程的域名和地址不同,需要根据具体情况确定
2017-06-29 18:24:26 520
原创 Hadoop实践(三)---高阶MapReduce
在运行作业处理数据集时,这个作业通常可以通过编写基本的MapReduce程序来生成,但有时需要编写更高级的程序来形成多个作业,或者用他们处理多个数据集。Hadoop有几种不同的方式把多个作业协调在一起,按照顺序链接或按照预定义的依赖关系来执行
2017-06-29 16:20:32 824
原创 Hadoop实践(三)---MapReduce中的Counter
在Hadoop的MapReduce框架中包括6种Counters,每一种包含若干个Counter,分别对Map和Reduce任务进行统计 Tips:图片中是Hadoop2.7.3 Counters 略有更新 注意区分 其实根据字面意思大概就知道这个Counter是干啥的
2017-06-21 07:36:19 2592
原创 基础算法(三)---选择排序(Java)
选择排序是一种简单直观的排序算法。工作原理: 首先在未拍序列中找到最小的元素,存放到排序序列的起始位置,然后在从剩下的元素中继续寻找最小的元素,放到排序序列末尾,以此类推,直到所有的元素均排序完毕
2017-06-12 09:56:32 515
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人