2014年12月_recommender_system

原创一路向前大数据推荐算法团队

仿佛被诸神施了诅咒一样的西西弗斯，他把一块巨石推上山顶，而由于那块巨石太重了，每每未上山顶就又滚下山去，前功尽弃，于是他就不断重复、永无止境地做这件事，而且每次都是从零开始做起。这就让我想起了杜牧《阿房宫赋》中最后一段的最后一句，换句话说，也就是"前界不暇自哀，而后界哀之；后界哀之而不鉴之，亦使后界而复哀后界也"。做大数据推荐，每界学生都要从数据的抓取或收集、数据的预处理、数据的建模、数据的评估和

2014-12-20 10:04:02 3789

原创 4台Hadoop集群完全分布式搭建

一、集群拓扑结构集群软件，如下所示：jdk-1.7.0hadoop-0.20.2mahout-0.5.0ubuntu-12.04说明：(1)四台计算机的用户名均为computer。(2)所有软件均放在/home/computer/目录下面。(3)master的作用是NameNode，Secondary，JobTracker。(4)slaver1，sl

2014-12-16 20:49:30 2136

原创分布式存储与分布式计算

一、高性能计算目前自己知道的高性能计算工具，如下所示：Hadoop：Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。Spark：Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具

2014-12-19 21:13:46 12153 1

原创 WordCount源码剖析

为了把抽象问题转化成为具体问题，深入理解MapReduce的工作原理，因此，以WordCount为例，详细分析MapReduce是怎么来执行的，中间的执行经过了哪些步骤，每个步骤产生的结果是什么。简单来说，大体上工作流程是Input从HDFS里面并行读取文本中的内容，经过MapReduce模型，最终把分析出来的结果用Output封装，持久化到HDFS中。一、WordCount的Map过程1

2014-12-19 16:28:32 5457 2

原创 MapReduce工作原理

一、MapReduce模型框架 MapReduce是一个用于大规模数据处理的分布式计算模型，最初由Google工程师设计并实现的，Google已经将完整的MapReduce论文公开发布了。其中的定义是，MapReduce是一个编程模型，是一个用于处理和生成大规模数据集的相关的实现。用户定义一个map函数来处理一个Key-Value对以生成一批中间的Key-Value对，再定义一个r

2014-12-19 09:56:05 5342

原创 Hadoop分布式文件系统和I/O

一、Hadoop数据类型Hadoop提供的数据类型，如下所示：BooleanWritable：标准布尔型数值ByteWritable：单字节数值DoubleWritable：双字节数FloatWritable：浮点数IntWritable：整型数LongWritable：长整型数Text：使用UTF8格式存储的文本NullWritable：当中的key或value为空时使用说明

2014-12-17 16:13:39 1048

一路向前

原创一路向前大数据推荐算法团队

原创 4台Hadoop集群完全分布式搭建

原创分布式存储与分布式计算

原创 WordCount源码剖析

原创 MapReduce工作原理

原创 Hadoop分布式文件系统和I/O

空空如也

空空如也

原创 一路向前大数据推荐算法团队

原创 4台Hadoop集群完全分布式搭建

原创 分布式存储与分布式计算

原创 WordCount源码剖析

原创 MapReduce工作原理

原创 Hadoop分布式文件系统和I/O

空空如也

空空如也

原创一路向前大数据推荐算法团队

原创分布式存储与分布式计算