[置顶] Mahout学习系列之推荐算法

参考:从源代码剖析Mahout推荐引擎    前言:Mahout框架集成了大量的常用的机器学习算法,且都支持在Hadoop分布式环境下运行,很大程度上节约了数据处理的时间成本,其中的推荐算法引擎有cf.taste包实现,它提供了一套完整的推荐算法工具库,同时规范了数据结构,并标准了程序开发过程。 1:Mahout推荐算法介绍 2:单机内存算法实现 3:基于hadoop分布式...
阅读(3918) 评论(0)

Mahout学习之聚类算法Kmeans

一:kMeans算法介绍 聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域。通常认为,聚类是一种无监督式的机器学习方法,它的过程是这样的:在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离,马式距离,汉明距离,余弦距离等)来估计样本所属类别。从结构性来划分,聚类方法分为自上而下和自下而上两种方法,前者的算法是先把所有样本视为一类,然后不断从这个大类中分离出小...
阅读(1010) 评论(0)

Mahout分类算法学习之实现Naive Bayes分类示例

1.简介 (1) 贝叶斯分类器的分类原理发源于古典概率理论,是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯分类器(Naive Bayes Classifier)做了一个简单的假定:给定目标值时属性之间相互条件独立,即给定元组的类标号,假定属性值有条件地相互独立,即在属性间不存在依赖关系。朴素贝叶斯分类模型所...
阅读(1447) 评论(1)

Mahout学习之命令行创建序列文件

一:命令行转换 创建新的工作目录 mkdir lastfm mkdir ./lastfm/original 自己准备一个数据集放在original文件夹下,例如将点击打开链接下边的数据保存在synthetic_control.data中进行转换,首先将其放在origiinal文件夹中 进入mahout的安装目录,前提是hadoop环境是启动的 cd /usr/local/hadoop/...
阅读(979) 评论(0)

Mahout学习之运行canopy算法错误及解决办法

一:将Text转换成Vector序列文件时  在Hadoop中运行编译打包好的jar程序,可能会报下面的错误: Exception in thread "main" java.lang.NoClassDefFoundError:  org/apache/mahout/common/AbstractJob  书中和网上给的解决办法都是:把Mahout根目录下的相应的jar包复制到Hadoo...
阅读(1605) 评论(0)

Mahout聚类算法学习之Canopy算法的分析与实现

3.1 Canopy算法 3.1.1 Canopy算法简介 Canopy算法的主要思想是把聚类分为两个阶段:阶段一,通过使用一个简单、快捷的距离计算方法把数据分为可重叠的子集,称为“canopy”;阶段二,通过使用一个精准、严密的距离计算方法来计算出现在阶段一中同一个canopy的所有数据向量的距离。这种方式和之前的聚类方式不同的地方在于使用了两种距离计算方式,同时因为只计算了重叠部分...
阅读(2139) 评论(0)

Mahout学习之Mahout简介、安装、配置、入门程序测试

一、Mahout简介 查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了... 附logo: (就是他,骑在象头上的那个Mahout)  步入正文啦:        Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的...
阅读(948) 评论(0)
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:758175次
    • 积分:9476
    • 等级:
    • 排名:第1976名
    • 原创:212篇
    • 转载:22篇
    • 译文:2篇
    • 评论:273条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论