mahout
文章平均质量分 71
Running_you
这个作者很懒,什么都没留下…
展开
-
MAHOUT之关联规则挖掘算法
需求说明目前正在对hive表中的数据做分析,期望从已有的数据中挖掘出类似购物篮的关联规则,但是单机环境下的关联规则算法实在是无法胜任大数据环境下的数据挖掘工作,无奈寻求大数据环境下的分布式挖掘算法,目前可供选用的关联规则挖掘算法有Apriori和fp-tree两种,前者较后者来说,当挖掘过万的记录时,效率上更是百倍的差距,所以选择mahout中提供的fpgrowth算法来实现关联规则挖掘。准备工作为原创 2015-09-06 22:42:51 · 2591 阅读 · 0 评论 -
Mahout之推荐算法基本实例
Mahout中主要核心的三大算法为推荐,聚类及分类算法,今天就最基本的推荐算法做总结,推荐中常用的两个推荐算法是”user_based”和”item_based”,前者主要通过和你兴趣相似的人来发现新的你感兴趣的东西,而后者则是发现一些和你所喜欢的事物相似的事物。此外,还有一种基于“contend_based”的推荐算法,它是根据事物所拥有的元数据出现进行事物的推荐,例如,如果你喜欢的电影是斯皮尔伯原创 2015-08-24 13:06:52 · 6202 阅读 · 0 评论 -
mahout算法数据输入规则
Mahout机器学习平台之聚类算法详细剖析数据输入中的格式说明: test类型 (seqdirectory函数) sequencefile类型 (seq2sparse函数) vector类型原创 2015-08-14 15:30:45 · 722 阅读 · 0 评论 -
MAHOUT文本向量相似度计算
相似度计算算法mahout源包中包含了common,hadoop,lucent及mahout核心算法相关的classes,其中,对于mahout中常用的推荐,聚类及分类中的相似度计算,mahout中提供了若干种向量相似度计算的方法,如下图所示 关于每种相似度的计算原理这里不作详细介绍说明,可以参考以下博客: http://www.cnblogs.com/dlts26/archive/2012/0原创 2015-09-24 20:13:07 · 2262 阅读 · 0 评论 -
Hadoop之sequencefile与text类型转化
sequencefile格式转text格式这里仅针对输入格式为package org.apache.hadoop.examples;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;imp原创 2015-10-15 17:50:42 · 4014 阅读 · 1 评论 -
mahout的安装,配置及聚类测试
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。最新版apache-mahout-distribution原创 2015-08-12 20:14:18 · 866 阅读 · 0 评论