- 博客(6)
- 收藏
- 关注
原创 一路向前大数据推荐算法团队
仿佛被诸神施了诅咒一样的西西弗斯,他把一块巨石推上山顶,而由于那块巨石太重了,每每未上山顶就又滚下山去,前功尽弃,于是他就不断重复、永无止境地做这件事,而且每次都是从零开始做起。这就让我想起了杜牧《阿房宫赋》中最后一段的最后一句,换句话说,也就是"前界不暇自哀,而后界哀之;后界哀之而不鉴之,亦使后界而复哀后界也"。做大数据推荐,每界学生都要从数据的抓取或收集、数据的预处理、数据的建模、数据的评估和
2014-12-20 10:04:02 3789
原创 4台Hadoop集群完全分布式搭建
一、集群拓扑结构集群软件,如下所示:jdk-1.7.0hadoop-0.20.2mahout-0.5.0ubuntu-12.04说明:(1)四台计算机的用户名均为computer。(2)所有软件均放在/home/computer/目录下面。(3)master的作用是NameNode,Secondary,JobTracker。(4)slaver1,sl
2014-12-16 20:49:30 2136
原创 分布式存储与分布式计算
一、高性能计算目前自己知道的高性能计算工具,如下所示:Hadoop:Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Spark:Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具
2014-12-19 21:13:46 12153 1
原创 WordCount源码剖析
为了把抽象问题转化成为具体问题,深入理解MapReduce的工作原理,因此,以WordCount为例,详细分析MapReduce是怎么来执行的,中间的执行经过了哪些步骤,每个步骤产生的结果是什么。简单来说,大体上工作流程是Input从HDFS里面并行读取文本中的内容,经过MapReduce模型,最终把分析出来的结果用Output封装,持久化到HDFS中。一、WordCount的Map过程1
2014-12-19 16:28:32 5457 2
原创 MapReduce工作原理
一、MapReduce模型框架 MapReduce是一个用于大规模数据处理的分布式计算模型,最初由Google工程师设计并实现的,Google已经将完整的MapReduce论文公开发布了。其中的定义是,MapReduce是一个编程模型,是一个用于处理和生成大规模数据集的相关的实现。用户定义一个map函数来处理一个Key-Value对以生成一批中间的Key-Value对,再定义一个r
2014-12-19 09:56:05 5342
原创 Hadoop分布式文件系统和I/O
一、Hadoop数据类型Hadoop提供的数据类型,如下所示:BooleanWritable:标准布尔型数值ByteWritable:单字节数值DoubleWritable:双字节数FloatWritable:浮点数IntWritable:整型数LongWritable:长整型数Text:使用UTF8格式存储的文本NullWritable:当中的key或value为空时使用说明
2014-12-17 16:13:39 1048
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人