Mahout机器学习
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处
搜索与推荐Wiki
这个作者很懒,什么都没留下…
展开
-
Mahout学习系列之推荐算法
参考:从源代码剖析Mahout推荐引擎 mahout 推荐系统示例 Mahout推荐算法API详解使用Mahout实现协同过滤Mahout的taste推荐系统里的几种Recommender分析前言:Mahout框架集成了大量的常用的机器学习算法,且都支持在Hadoop分布式环境下运行,很大程度上节约了数据处理的时间成本,其中的推荐算法引擎有cf.ta...原创 2016-03-31 23:42:18 · 8846 阅读 · 4 评论 -
Mahout聚类算法学习之Canopy算法的分析与实现
3.1 Canopy算法3.1.1 Canopy算法简介 Canopy算法的主要思想是把聚类分为两个阶段:阶段一,通过使用一个简单、快捷的距离计算方法把数据分为可重叠的子集,称为“canopy”;阶段二,通过使用一个精准、严密的距离计算方法来计算出现在阶段一中同一个canopy的所有数据向量的距离。这种方式和之前的聚类方式不同的地方在于使用了两种距离计算方式,同时因为只计算了重叠部分的数据...原创 2015-10-09 16:05:16 · 4909 阅读 · 0 评论 -
Mahout学习之聚类算法Kmeans
一:kMeans算法介绍 聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域。通常认为,聚类是一种无监督式的机器学习方法,它的过程是这样的:在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离,马式距离,汉明距离,余弦距离等)来估计样本所属类别。从结构性来划分,聚类方法分为自上而下和自下而上两种方法,前者的算法是先把所有样本视为一类,然后不断从这个...原创 2015-10-23 22:30:32 · 2517 阅读 · 0 评论 -
Mahout学习之运行canopy算法错误及解决办法
一:将Text转换成Vector序列文件时在Hadoop中运行编译打包好的jar程序,可能会报下面的错误:Exceptioninthread"main"java.lang.NoClassDefFoundError: org/apache/mahout/common/AbstractJob书中和网上给的解决办法都是:把Mahout根目录下的相应的jar包复制到Hadoop...原创 2015-10-11 13:31:58 · 3081 阅读 · 0 评论 -
Mahout分类算法学习之实现Naive Bayes分类示例
1.简介(1) 贝叶斯分类器的分类原理发源于古典概率理论,是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯分类器(Naive Bayes Classifier)做了一个简单的假定:给定目标值时属性之间相互条件独立,即给定元组的类标号,假定属性值有条件地相互独立,即在属性间不存在依赖关系。朴素贝叶斯分类模型所...原创 2015-10-23 20:37:23 · 3406 阅读 · 1 评论 -
Mahout学习之命令行创建序列文件
一:命令行转换创建新的工作目录mkdir lastfmmkdir ./lastfm/originalexport WORK_DIR=/home/thinkgamer/document/lastfmcd $WORK_DIR自己准备一个数据集放在original文件夹下,例如将点击打开链接下边的数据保存在synthetic_control.data中进行转换,首先将其放在ori...原创 2015-10-11 14:25:37 · 2443 阅读 · 0 评论 -
Mahout学习之Mahout简介、安装、配置、入门程序测试
一、Mahout简介查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了...附logo:(就是他,骑在象头上的那个Mahout)步入正文啦: Mahout是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚...原创 2015-09-20 12:42:44 · 2289 阅读 · 0 评论