hadoop
文章平均质量分 88
haizhaopeng
这个作者很懒,什么都没留下…
展开
-
hadoop MapReduce 三种连接
为了实现内连接和外连接,MapReduce中有三种连接策略,如下所示。这三种连接策略有的在map阶段,有的在reduce阶段。它们都针对MapReduce的排序-合并(sort-merge)的架构进行了优化。重分区连接(Repartition join)——reduce端连接。使用场景:连接两个或多个大型数据集。复制连接(Replication join)——map端连接。使用场景:待连接转载 2015-03-29 13:05:31 · 6386 阅读 · 0 评论 -
基于Hadoop SLA认证机制实现权限控制
Hadoop集群上存储数据,同时基于MapReduce计算框架可以实现计算任务,那么无论是从数据保护的角度,还是从提交计算任务占用资源的角度来看,都需要存在一种权限管理与分配机制,能够很好地限制哪些人可以在HDFS上存储数据,哪些人可以利用集群的资源来处理特定的计算任务。当然,如果能够非常完美地解决这些问题是最好的。当前Hadoop本身提供的权限管理功能还不能满足普遍的需要,或者我们从Hadoop转载 2015-07-31 07:55:25 · 3135 阅读 · 0 评论 -
Hadoop MapReduce处理海量小文件:压缩文件
在HDFS上存储文件,大量的小文件是非常消耗NameNode内存的,因为每个文件都会分配一个文件描述符,NameNode需要在启动的时候加载全部文件的描述信息,所以文件越多,对NameNode来说开销越大。我们可以考虑,将小文件压缩以后,再上传到HDFS中,这时只需要一个文件描述符信息,自然大大减轻了NameNode对内存使用的开销。MapReduce计算中,Hadoop内置提供了如下转载 2015-07-29 05:56:20 · 3466 阅读 · 0 评论 -
Hive调优(语法与参数层面优化)
一、简介 作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商。Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重要。好的架构胜过任何优化,好的Hql同样会效率大增,修改Hive参数,有时也能起到很好的效果。有了瓶颈才需要优化 1、Hadoop转载 2015-05-04 20:27:42 · 739 阅读 · 0 评论 -
Hadoop 完全分布式安装笔记
版本及配置简洁Java: JDK1.7.0_71Hadoop: hadoop-2.5.2Linux: centos6.4 64bit暂且配置3台机器,假设三台机器IP如下:192.168.40.138 master192.168.40.137 slave-1192.168.40.136 slave-2一.前置环境配置1.创建hadoop用户以下原创 2015-03-29 12:58:01 · 351 阅读 · 0 评论 -
MapReduce之distinct
适用场景:当我们希望去除数据集中的重复数据或者某些字段重复的数据就可以使用这个模式。结构:这个模式使用了MapReduce框架的功能,将相同的key分组到一起来实现去重。这个模式使用mapper做数据的转换,在reducer中不需要做太多工作。在这个模式中可以使用combiner,如果有大量重复的数据,combiner将非常有用。重复的记录在数据集中经常会相对邻转载 2015-03-29 20:02:52 · 509 阅读 · 0 评论 -
MapReduce之自定义partitioner
partitioner定义:partitioner的作用是将mapper(如果使用了combiner的话就是combiner)输出的key/value拆分为分片(shard),每个reducer对应一个分片。默认情况下,partitioner先计算key的散列值(通常为md5值)。然后通过reducer个数执行取模运算:key.hashCode%(reducer个数)。这种方式不仅能够随机原创 2015-03-29 19:58:09 · 3493 阅读 · 0 评论 -
mapreduce实现倒排索引
目的:产生一个数据集的索引以便提供更快的搜索或数据丰富能力。动机:对大的数据集建立一个关键字的索引,通常可以方便通过指定关键字搜索到其包含特定值的对应记录。尽管创建倒排索引的过程需要预先进行额外的处理,但花费时间做预处理可以极大地缩减查询时所需要的时间。适用场景:倒排索引通常用在需要快速搜索查询响应的场景。可以对一个查询的结果进行预处转载 2015-03-29 18:12:25 · 614 阅读 · 0 评论 -
多个mapreduce连接实例
将reduce端连接的Map/Reduce结果作为wordCount 的map输入源:转载 2015-03-29 18:04:05 · 504 阅读 · 0 评论 -
hadoop中MapReduce多种join实现实例分析
一、概述 对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并且根据我转载 2015-03-29 17:56:39 · 719 阅读 · 0 评论 -
Flume-NG之KafkaChannel
Flume-NG之KafkaChannel apache下一个版本(1.6)将会带来一个新的组件KafKaChannel,顾名思义就是使用kafka做channel,当然在CDH5.3版本已经存在这个channel。 大伙知道,常用的channel主要有三个: 1、memory channel:用内存做channel,优点是速度最快,容易配置;缺点是,转载 2015-08-04 19:54:27 · 2191 阅读 · 0 评论