recommender_system-CSDN博客

原创一路向前大数据推荐算法团队

仿佛被诸神施了诅咒一样的西西弗斯，他把一块巨石推上山顶，而由于那块巨石太重了，每每未上山顶就又滚下山去，前功尽弃，于是他就不断重复、永无止境地做这件事，而且每次都是从零开始做起。这就让我想起了杜牧《阿房宫赋》中最后一段的最后一句，换句话说，也就是"前界不暇自哀，而后界哀之；后界哀之而不鉴之，亦使后界而复哀后界也"。做大数据推荐，每界学生都要从数据的抓取或收集、数据的预处理、数据的建模、数据的评估和

2014-12-20 10:04:02 3923

原创 4台Hadoop集群完全分布式搭建

一、集群拓扑结构集群软件，如下所示：jdk-1.7.0hadoop-0.20.2mahout-0.5.0ubuntu-12.04说明：(1)四台计算机的用户名均为computer。(2)所有软件均放在/home/computer/目录下面。(3)master的作用是NameNode，Secondary，JobTracker。(4)slaver1，sl

2014-12-16 20:49:30 2273

原创给师弟师妹们学习数据挖掘的一些建议

看着刚进实验室的师弟师妹们的迷茫，虽然也与他们进行过一些零散的交谈，但是都不够系统。因此，根据自己的经历给出学习数据挖掘的一些建议，大家可以根据自身的情况，具体问题具体分析，作为参考。希望在上一届的基础上，走的更深，走的更远。

2015-11-28 11:50:59 22837 4

原创协同过滤推荐算法的初步了解与实战

协作型过滤是1992年David Goldberg 在施乐帕研究中心（Xerox PARC）的一篇题为《Using collaborative filtering to weave an information tapestry》的论文中首次使用的。现在大多数的web站点在各个方面都运用到了协作型过滤算法。本文简单介绍基于用户的协同过滤算法和基于物品的协同过滤算法原理，最后将运用算法实现推荐观

2015-10-09 19:20:09 1813

原创分布式存储与分布式计算

一、高性能计算目前自己知道的高性能计算工具，如下所示：Hadoop：Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。Spark：Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具

2014-12-19 21:13:46 12436

原创 WordCount源码剖析

为了把抽象问题转化成为具体问题，深入理解MapReduce的工作原理，因此，以WordCount为例，详细分析MapReduce是怎么来执行的，中间的执行经过了哪些步骤，每个步骤产生的结果是什么。简单来说，大体上工作流程是Input从HDFS里面并行读取文本中的内容，经过MapReduce模型，最终把分析出来的结果用Output封装，持久化到HDFS中。一、WordCount的Map过程1

2014-12-19 16:28:32 5583

原创 MapReduce工作原理

一、MapReduce模型框架 MapReduce是一个用于大规模数据处理的分布式计算模型，最初由Google工程师设计并实现的，Google已经将完整的MapReduce论文公开发布了。其中的定义是，MapReduce是一个编程模型，是一个用于处理和生成大规模数据集的相关的实现。用户定义一个map函数来处理一个Key-Value对以生成一批中间的Key-Value对，再定义一个r

2014-12-19 09:56:05 5475

原创 Hadoop分布式文件系统和I/O

一、Hadoop数据类型Hadoop提供的数据类型，如下所示：BooleanWritable：标准布尔型数值ByteWritable：单字节数值DoubleWritable：双字节数FloatWritable：浮点数IntWritable：整型数LongWritable：长整型数Text：使用UTF8格式存储的文本NullWritable：当中的key或value为空时使用说明

2014-12-17 16:13:39 1166

一路向前