笑给别人看-CSDN博客

转载 Hadoop1.x与Hadoop2的区别

1.变更介绍Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更： l HDFS的NameNodes可以以集群的方式布署，增强了NameNodes的水平扩展能力和可用性； l MapReduce将JobTracker中的资源管理及任务生命周期管理（包括定时触发及监控），拆分成两个独立

2016-12-26 20:19:04 386

转载 Mapreduce shuffle和排序

Mapreduce为了确保每个reducer的输入都按键排序。系统执行排序的过程—–将map的输出作为输入传给reducer 称为shuffle。学习shuffle是如何工作的有助于我们理解mapreduce工作机制。shuffle属于hadoop不断被优化和改进的代码库的一部分。从许多方面看，shuffle是mapreduce的“心脏”，是奇迹出现的地方。

2016-12-26 19:34:25 890

原创 HDFS原理扫盲

问题导读 1.什么是分布式文件系统？ 2.怎样分离元数据和数据？ 3.HDFS的原理是什么？ Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。它能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。要理解HDFS的内部工作原理，首先要理解什么是分布式文件系统。分布式文件系统多台计算机联网协同工

2016-12-26 19:21:01 237

原创 Apache Kafka

Apache KafkaApache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache Kafka项目的一部分。Apache Kafka是一种快速、可扩展的、设计内在就是分布式的，分区和可复制的提交日志服务。Apache Kafka与传统消息系统相比有以下不同它被设计为一个分布式系统，易于向外扩展它同时为发布和订阅提供高吞吐量它支持多订阅者，当失败时

2016-12-15 21:02:06 291

原创 hive优化

长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。map reduce作业初始化的时间是比较长的。 3.对sum，count来说，不存在数据倾斜问题。 4.对count(distinct xxx),效率较低，数据量一多，准出

2016-12-08 16:59:12 733

转载 hive的几种文件格式

Hive文件存储格式 1.textfile textfile为默认格式存储方式：行存储磁盘开销大数据解析开销大压缩的text文件 hive无法进行合并和拆分 2.sequencefile 二进制文件,以的形式序列化到文件中存储方式：行存储可分割压缩一般选择block压缩优势是文件和Hadoop api中的mapfile是相互兼容的。 3.rcf

2016-12-07 17:43:53 615

笑给别人看的博客