mahout
文章平均质量分 77
july_2
这个作者很懒,什么都没留下…
展开
-
贝叶斯分类测试
1.数据 使用20 newsgroups data (http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz) ,数据集按时间分为训练数据和测试数据,总大小约为85MB,每个数据文件为一条信息,文件头部几行指定消息的发送者、长度、类型、使用软件,以及主题 等,然后用空行将期与正文隔开,正文没有固定的格转载 2012-11-29 12:23:25 · 917 阅读 · 0 评论 -
mahout之bytes分类
实现包括三部分:The Trainer(训练器)、The Model(模型)、The Classifier(分类器)1、训练首先,要对输入数据进行预处理,转化成Bayes M/R job读入数据要求的格式,即训练器输入的数据是KeyValueTextInputFormat格式,第一个字符是类标签,剩余的是特征属性(即单词)。以20个新闻的例子来说,从官网上下载的原始数据是一个分类目转载 2013-07-30 14:45:30 · 1049 阅读 · 0 评论 -
mahout之kmean聚类
.Kmeans聚类 Kmeans算法思想也比较简单 :可见http://baike.baidu.com/view/3447609.htm首先从n个数据对象选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复转载 2013-07-17 15:33:30 · 1290 阅读 · 0 评论 -
mahout之canopy聚类
1.Canopy聚类 Canopy聚类是一种简单、快速、但不太准确的聚类方法。 该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。while(没有标记的数据点){ 选择一个没有强标记的数据点p 把p看作一个新Canopy c的中心 离p距离 离p距离}Canopy聚类常作为更强聚类方法的初始步骤。mahout转载 2013-07-17 10:31:52 · 781 阅读 · 0 评论 -
Mahout算法集
在Mahout实现的机器学习算法见下表算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Ne转载 2013-05-10 09:26:57 · 803 阅读 · 0 评论 -
mahout分布式:Item-based推荐
1.简介Ø基于用户的协同推荐算法随着使用者数量的增多,计算的时间就会变长,所以在2001年Sarwar提出了基于项目的协同过滤推荐算法(Item-based Collaborative Filtering Algorithms)。基于项目的协同过滤方法有一个基本的假设:“能够引起使用者兴趣的项目,必定与其之前评分高的项目相似”,通过计算项目之间的相似性来代替使用者之转载 2013-03-26 16:48:12 · 3116 阅读 · 3 评论 -
mahout推荐引擎简介
Mahout 简单使用经验mahout项目介绍推荐引擎利用特殊的信息过滤技术,将不同的内容(例如电影、音乐、书籍、新闻、图片、网页等)推荐给可能感兴趣的用户。通常情况下,推荐引擎的实现是通过将用户的个人喜好与特定的参考特征进行比较,并试图预测用户对一些未评分项目的喜好程度。参考特征的选取可能是从项目本身的信息中提取的,或是基于用户所在的社会或社团环境。 常用的推荐的方式主要转载 2012-12-12 14:07:07 · 661 阅读 · 0 评论 -
mahout推荐引擎3
基于 Apache Mahout 实现高效的协同过滤推荐Apache Mahout 是 Apache Software Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。转载 2012-12-12 14:10:23 · 131 阅读 · 0 评论 -
mahout推荐引擎2
什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。协同过滤一般是在海量的用户中发转载 2012-12-12 14:08:53 · 134 阅读 · 0 评论 -
Mahout的taste里的几种相似度计算方法
欧几里德相似度(Euclidean Distance)最初用于计算欧几里德空间中两个点的距离,以两个用户x和y为例子,看成是n维空间的两个向量x和y, xi表示用户x对itemi的喜好值,yi表示用户y对itemi的喜好值,他们之前的欧几里德距离是对应的欧几里德相似度,一般采用以下公式进行转换:距离越小 ,相似度越大 在taste里,计算user之间和item之前欧几转载 2012-12-11 17:16:35 · 883 阅读 · 0 评论 -
Mahout聚类分析
聚类分析什么是聚类分析?聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”,核心的思想也就是聚转载 2012-12-07 15:58:48 · 260 阅读 · 0 评论 -
mahout 安装 配置 测试
mahout是一个基于Map/Reduce的机器学习算法库,运行在hadoop集群上1.到cloudera网站下载mahout cdh版本,解压到某一目录。2.安装并运行hadoop集群。3.执行bin/mahout --help 看是否列出很多命令,检查Mahout是否安装完好。4.测试测试代码如下:package mahout;import java.原创 2012-11-30 11:29:35 · 1294 阅读 · 0 评论 -
mahout 测试
1. 安装hadoop集群并启动2.去 https://ccp.cloudera.com/display/SUPPORT/CDH4.0.1+Downloadable+Tarballs 下载mahout cdh版本gz 解压3. bin/mahout --help 看是否列出一些算法,用以判断mahout是否安装成功?4.下载数据集synthetic_control.data转载 2012-11-29 17:29:06 · 96 阅读 · 0 评论 -
Mahout聚类中距离度量
Mahout聚类中距离度量7.4 Exploring distance measures(距离度量扩展)在上面的简单聚类示例中,我们用的是EuclideanDistanceMeasure(欧式距离)来计算点之间的距离。虽然它在我们上节的聚类实例中被证明是有效的度量方法,但在Mahout包中还有其他相似的度量方法实现。这些类被命名为 DistanceMeasure(距离度量) 的实现转载 2013-10-10 10:51:12 · 1949 阅读 · 0 评论