sparkML
小江_xiaojiang
这个作者很懒,什么都没留下…
展开
-
sparkML之kmeans聚类
1.标准kmeans算法kmeans算法是实际中最常用的聚类算法,没有之一。kmeans算法的原理简单,实现起来不是很复杂,实际中使用的效果一般也不错,所以深受广大人民群众的喜爱。 kmeans算法的原理介绍方面的paper多如牛毛,而且理解起来确实也不是很复杂,这里使用wiki上的版本: 已知观测集(x1,x2,⋯,xn),其中每个观测都是一个d维实矢量,kmeans聚类要把这n原创 2017-12-06 20:42:52 · 1275 阅读 · 0 评论 -
SparkML之PCA主成分分析
为什么要对数据进行降维? 在机器学习或者数据挖掘中,我们往往会get到大量的数据源,这些数据源往往有很多维度来表示它的属性,但是我们在实际处理中只需要其中的几个主要的属性,而其他的属性或被当成噪声处理掉。比如,13*11的源数据经过将为后变成了13*4的优化数据,那么,中间就减去了7个不必要的属性,选取了4个主要属性成分,简化了计算。常用的数据降维方法有:主成分分析、因子分析、原创 2017-12-07 16:01:14 · 2704 阅读 · 0 评论 -
spark之CF协同过滤
一)、协同过滤 1.1 概念 协同过滤是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义 1.2 分类 1.在基于用户的方法的中,如果两个用户表现出相似的偏好(即对相同物品的偏好大体相同),那就认为他们的兴趣类似。要对他们中的一个用户推荐一个未知物品转载 2017-12-07 16:57:47 · 3695 阅读 · 0 评论