- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 3-1、topk代码
1、生成随机数代码:2、生成部分数据如下所示:[hadoop@hadoop ~]$ tail -10 top_k.txt1628786786639425960875245389881409920206832792706[hadoop@hadoop ~]$3、代码:package test;import
2015-08-30 21:29:57 902
原创 2-1、二次排序代码
1、输入数据:[hadoop@hadoop ~]$ hdfs dfs -text /user/hadoop/secondarysort.txt3 55 897 635 563 93 17 267 457 45 185 237 6
2015-08-30 18:12:08 760
原创 Hadoop分布式文件系统:架构和设计
引言前提和设计目标硬件错误流式数据访问大规模数据集简单的一致性模型“移动计算比移动数据更划算”异构软硬件平台间的可移植性Namenode 和 Datanode文件系统的名字空间 (namespace)数据复制副本存放: 最最开始的一步副本选择安全模式文件系统元数据的持久化通讯协议健壮性磁盘数据错误,心跳检测和重新复制集群均衡数据完整性元数据磁盘错误快照数
2015-08-30 13:25:20 993
转载 java实现快速排序
说来感到惭愧,昨天看别人的博客上面一一讲了一些算法,其实这些算法在大学都学过,不过几乎全部忘记了。虽然现在做java上层开发基本上用不到算法,但是还是感觉算法是一种思想,是一种灵魂,所以又不仅翻开了严蔚敏老师的数据结构,一个一个把以前忘记的算法实现一遍。 快速排序的基本思想: 通过一趟排序将待排序记录分割成独立的两部分,其中一部分记录的关
2015-08-30 00:06:25 1016
原创 1-2、自定义Partitioner代码
1-2、自定义Partitioner代码1、输入数据:hadoop|hellospark|whichspark|whostorm|howeverhadoop|codespark|water[HDFS上:2、代码:package 自定义分区;im
2015-08-23 16:47:08 1004
原创 1-1、Partitioner 简介
1-1、Partitioner 简介 一、Partitioner简介 Partitioner的作用是对Mapper产生的中间结果进行分片,以便将同一个分组的数据交给同一个Reducer处理,它直接影响Reducer阶段的复杂均衡。 Partitioner只提供了一个方法: getPartition(Text key,Text valu
2015-08-23 16:43:16 3555
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人