hadoop
文章平均质量分 58
小飞_侠
这个作者很懒,什么都没留下…
展开
-
Hadoop入门之HDFS与MapReduce
转http://blog.csdn.net/perfumekristy/article/details/7182323Hadoop的核心就是HDFS与MapReduceHDFS(Hadoop Distributed File System)由GFS(Google File System)演变而来,用于管理数据存储。MapReduce 是一个分布式计算框架,用于数据分析处理。转载 2013-07-11 16:40:35 · 948 阅读 · 0 评论 -
使用FileSystem类进行文件读写及查看文件信息
在这一节我们要深入了解Hadoop的FileSystem类——这是与与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现,但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性。这是非常有用的,比如说你可以非常方便的直接用同样的代码在你的本地文件系统上进行测试。使用hadoop URL读数据 从hadoop文件系统中读取文件的最简单转载 2014-04-21 12:27:58 · 856 阅读 · 0 评论 -
利用hadoop的partition将数据打散
1、应用场景介绍在原创 2014-04-19 14:04:50 · 2496 阅读 · 1 评论 -
利用hadoop二次排序进行用户行为分析
1、应用场景说明在对用户行为进行分析之前,需要对用户行为按session进行关联,或记录每个用户的访问某个页面的时间。原始日志:用户 \t 访问时间 \t 访问页面1111 20140416 05:55 page11111 20140416 06:0原创 2014-04-19 13:08:14 · 1308 阅读 · 0 评论 -
使用MapReduce进行排序
之前在工作中使用到过MapReduce的排序,当时对于这个平台的理解还比较浅显,选择的是一个最为简单的方式,就是只用一个Recude来做。因为Map之后到Reduce阶段,为了Merge的方便,MapReduce的实现会自己依据key值进行排序,这样得出的结果就是一个整体排序的结果。而如果使用超过一个Reduce任务的话,所得的结果是每个part内部有序,但是整体是需要进行merge才可以得到最终转载 2014-02-19 21:24:46 · 1994 阅读 · 0 评论 -
Mapreduce-Partition分析
Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce。2)效率,分配速度一定要快。Mapreduce提供的PartitionerMapreduce默认的partitio转载 2014-02-19 20:38:22 · 1817 阅读 · 0 评论 -
利用采样器实现mapreduce任务输出全排序
采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用,以满足不同的需求。另外,采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。 常见采样器 IntervalSampler 以一定的间隔定期从划分中选择key,对有排序的数据来说更好RandomSamele转载 2014-02-19 20:35:37 · 1194 阅读 · 0 评论