大数据训练营

大数据训练营

使用 Spark MLlib 做 K-means 聚类分析

摘要: MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础,向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析,我们还将通过分析源码,进一步加深读者对 MLlib K-means 算法的实现原理和使用方法的...

2017-06-28 18:58:08

阅读数 2458

评论数 0

Spark机器学习数据流水线

关键点: 了解机器学习数据流水线有关内容。 怎么用Apache Spark机器学习包来实现机器学习数据流水线。 数据价值链处理的步骤。 Spark机器学习流水线模块和API。 文字分类和广告检测用例。 在之前的“用Apache Spark做大数据处理”系列文章中,我们学...

2017-03-14 16:27:00

阅读数 5195

评论数 3

基于Spark MLlib平台的协同过滤算法---电影推荐系统

又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用。     说到推荐系统,大家可能立马会想到协同过滤算法。本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用。其中,主要包括三部分内容: ...

2017-03-09 23:25:32

阅读数 2287

评论数 0

提示
确定要删除当前文章?
取消 删除