Hadoop Yarn初探

前言经过多年的发展形成了Hadoop1.X生态系统,其结构如下图所示: 其mapReduce的结构如下: 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 1. 用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,...

2017-10-06 15:21:50

阅读数:502

评论数:1

mahout学习之聚类(1)——向量的引入与距离测度

聚类的基本概念聚类就是将一个给定的文档集中的相似项目分成不同簇的过程,可以将簇看作一组簇内相似而簇间有别的项目的集合。 对文档集的聚类涉及以下三件事: 1. 一个算法:将文档集阻止到一起的算法 2. 相似性与不相似的概念 3. 停止的条件聚类数据的表示mahout将输入数据以向量的形式保存...

2017-10-03 15:04:00

阅读数:171

评论数:0

mahout学习之推荐算法

推荐的定义推荐算法可以分为三大类,基于用户的,基于物品的和基于内容的,前两者均属于协同过滤的范畴,仅仅通过用户与物品之间的关系进行推荐,无需了解物品自身的属性。而几乎内容的推荐技术很有用,但是必须与特定领域相结合,比如推荐一本书就必须了解书的属性,作者,颜色,内容等等。但是这些知识无法转移到其他领...

2017-10-02 23:14:55

阅读数:300

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭