20161109
do_what_you_can_do
大数据实习
展开
-
hadoop集群调优及MR调优
一、操作系统调优1、提高网络连接上限。以增加网络带宽的利用率,即修改内核net.core.somaxcon参数2、关闭swap交换分区。以免内存不足时,数据会溢写到磁盘,读取时再从磁盘读取,增加数据读取时间3、调整预读缓存区的大小。将数据预读,减少磁盘IO时间二、HDFS调优1、配置文件一:core-site.xml1>hadoop.tmp.dir:原创 2016-11-09 09:33:07 · 3559 阅读 · 0 评论 -
Cloudera CDH与Apache Hadoop的比较
一、CDH的特点1、运维方便。在大型分布式系统的部署和维护方面很有优势2、应用Hadoop家族其它的应用比较方便3、文档体系化,受大众支持二、Hadoop的特点1、容易部署,对系统的要求不高2、能够比较容易的部署CDH中没有的模块3、定制化三、链接1、hadoop:http://hadoop.apache.org/releases.html2原创 2016-11-09 10:25:49 · 1564 阅读 · 0 评论 -
MR中的combiner问题
一、问题1、如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力,同样也可以大幅度提高程序效率。2、使用专利中的国家用数据倾斜这个定义。这样的数据远远不是一致性的或者说平衡分布的,由于大多数专利的国家都属于美国,这样不仅Mapper中的键值对、中间阶段(sh原创 2016-11-09 10:37:53 · 659 阅读 · 0 评论 -
Hive使用性能调优
一、简介 作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商。Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重要。好的架构胜过任何优化,好的Hql同样会效率大增,修改Hive参数,有时也能起到很好的效果。有了瓶颈才需要优化 1、Hado转载 2016-11-09 11:56:42 · 1118 阅读 · 0 评论