博客专栏  >  云计算/大数据   >  Mahout深度解析

Mahout深度解析

解析Mahout的所有算法

关注
2 已关注
20篇博文
  • Mahout推荐算法之ItemBased

    基于item的推荐是常用并且高效的一种推荐方式,最重要的是它可以做实事推荐。

    2014-10-11 13:08
    2750
  • Mahout推荐算法之SlopOne

    Mahout推荐算法之SlopOne

    2014-10-11 09:35
    2147
  • Mahout canopy聚类

    Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。根据canopy内点的数...

    2014-05-23 15:37
    1707
  • Mahout kmeans聚类

    K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的...

    2014-05-23 15:41
    2629
  • Mahout 模糊kmeans

    FCM 算法用一个Job寻找cluster的中心点。在map的初始化节点,加载初始化(或上一轮迭代的结果)中心点。在map中计算point 和每一个簇的亲和度。在combiner计算同一个cluste...

    2014-05-23 15:52
    1859
  • Mahout文本向量化

    在文本聚类之前,首先要做的是文本的向量化。该过程涉及到分词,特征抽取,权重计算等等。Mahout 提供了文本向量化工具。由于Mahout 向量化算法要处理的文件是Hadoop SequenceFile...

    2014-05-22 10:43
    1682
  • Mahout决策森林

    在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random ...

    2014-05-22 10:45
    1584
  • Mahout朴素贝叶斯文本分类

    Mahout贝叶斯分类器按照官方的说法,是按照《Tackling the PoorAssumptions of Naive Bayes Text Classiers》实现的。分为三个模块:训练、测试和...

    2014-05-22 10:53
    2386
  • Mahout fp-growth

    Apriori算法的一个主要瓶颈在于,为了获得较长的频繁模式,需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前,在数据挖掘领域,Apriori和FP-...

    2014-05-22 11:05
    2137
  • Mahout LDA 聚类

    Dirichlet聚类是一种基于模型的聚类方法,其基本思想是初始化一些模型,并按不同比重混合起来,然后我们把数据分配到各个模型中,根据当前划分更新模型参数,不断重复数据分配和参数更新的过程,直到设定的...

    2014-05-22 12:42
    2766
  • mahout系列----Dirichlet 分布

    mahout系列----Dirichlet 聚类

    2013-12-05 09:47
    884
  • mahout系列----minhash聚类

    mahout系列----minhash聚类

    2013-12-05 00:25
    1064
  • mahout系列之---谱聚类

    mahout谱聚类

    2013-12-05 00:05
    1275
  • Mahout 算法

    Mahout 包括协同过滤,基于User和Item的推荐;kmeans、Fuzzy-kmeans 、Mean shift 、Dirichlet process 、LDA聚类;奇异值分解;并行频繁项集挖...

    2013-11-08 16:59
    1385
  • Mahout系列之----kmeans 聚类

    Kmeans是最经典的聚类算法之一,它的优美简单、快速高效被广泛使用。 Kmeans算法描述 输入:簇的数目k;包含n个对象的数据集D。 输出:k个簇的集合。 方法: 从D中任意选择k个对象作为初...

    2013-11-09 14:32
    1949
  • Mahout 系列之--canopy 算法

    Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。 (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p。 (3)计...

    2013-11-09 14:07
    959
  • Mahout系列之-----相似度

    Mahout推荐系统中有许多相似度实现,这些组件实现了计算不能User之间或Item之间的相似度。对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用...

    2013-11-09 13:08
    858
  • Mahout系列之----距离度量

    x = (x1,...,xn) 和y = (y1,...,yn) 之间的距离为   (1)欧氏距离   EuclideanDistanceMeasure   (2)曼哈顿距离  Manhatt...

    2013-11-09 13:01
    1313
  • Mahout系列之----共轭梯度预处理

    对于大型矩阵,预处理是很重要的.常用的预处理方法有:                  (1) 雅克比预处理                  (2)块状雅克比预处理     ...

    2013-11-09 12:21
    1312
  • Mahout 系列之----共轭梯度

    无预处理共轭梯度   要求解线性方程组 ,稳定双共轭梯度法从初始解 开始按以下步骤迭代: 任意选择向量 使得 ,例如, 对 ...

    2013-11-08 17:58
    1124

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部