YYDU_666-CSDN博客

原创 Hadoop在Mapreduce中使用压缩详解

Hadoop在MapReduce中使用压缩详解 Hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的，Hadoop能够自动为我们将压缩的文件解压，而不用我们去关心。作者：ggjucheng来源：博客园|2012-04-23 10:30 收藏分享【限时免费】年底最强一次云计算大会，看传统、社区、互联网企业如何碰撞？ Ha

2018-01-07 20:36:03 443

转载 MapReduce性能调优记录

MapReduce原理要知道怎么对MapReduce作业进行调优前提条件是需要对Map-Reduce的过程了然于胸。 Map-Reduce运行原理图： Map Side 1.从磁盘读取数据并分片默认每个block对应一个分片，一个map task 2.进行map处理运行自定义的map业务过程 3.输出数据到缓冲区中 map输出的数据并不是直接写入磁盘的，而是会先存储在一

2017-12-29 16:11:39 381

转载 Shuffle 过程

上一章里讨论了 job 的物理执行图，也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的，同时也分析了 task 是怎么产生 result，以及 result 怎么被收集后计算出最终结果的。然而，我们还没有讨论数据是怎么通过 ShuffleDependency 流向下一个 stage 的？对比 Hadoop MapReduce 和 Spark

2017-12-27 00:11:28 1198

转载 Hive性能优化

1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产

2017-12-23 00:22:33 585

原创搭建Hadoop集群，一个月6T的数量需要几台服务器

配置几个namenode,几个datanode,namenode和datanode怎么部署，内存与硬盘大小。最好是两个做成HA 关于硬盘: 6T的数据容量,看你副本数量设置是多少,一般默认为3,那么仅这些就需要18T硬盘,稍微大一点20T吧;这仅仅是HDFS存储;(这里我说的是一个月的,你数据保存几个月,就乘几倍) 如果你集群上面要跑计算,MR计算出来的数据要保

2017-12-08 14:03:58 5366

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Hadoop在Mapreduce中使用压缩详解

转载 MapReduce性能调优记录

转载 Shuffle 过程

转载 Hive性能优化

原创 搭建Hadoop集群，一个月6T的数量需要几台服务器

空空如也

空空如也

原创搭建Hadoop集群，一个月6T的数量需要几台服务器