SparkMLlib
铭霏
这个作者很懒,什么都没留下…
展开
-
Spark机器学习API之特征处理(二)
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于转载 2016-06-01 16:03:55 · 4257 阅读 · 0 评论 -
MLlib中的Random Forests和Boosting
【编者按】本文来自Databricks公司网站的一篇博客文章,由Joseph Bradley和Manish Amde撰写。此外,Databricks是由Apache Spark的创始人建立的,成立于2013年年中,目前团队人员均是开源圈子内的重量级人物,他们都热衷于"增值开源软件":任职CEO的Ion Stoica是UC Berkeley计算机教授、AMPLab联合创始人,同时也是Co转载 2016-04-29 08:33:51 · 634 阅读 · 0 评论 -
Spark MLlib实现的中文文本分类–Naive Bayes
文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯(Naive Bayes)算法,完成对中文文本的分类过程。主要包括中文分词、文本表示(TF-IDF)、模型训练、分类预测等。中文分词对于中文文本分类而言,需要先对文章转载 2016-06-01 15:43:43 · 3121 阅读 · 2 评论 -
Databricks孟祥瑞:ALS 在 Spark MLlib 中的实现
深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布,MLlib 作为 Spark 负责机器学习 (ML) 的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法:研究主题分布的 latent Dirichlet allocation (LDA)、估计点集分布的高斯混合模型 (GMM)、提取频繁项集的 FP-growth、生成图聚类的 power iteration c转载 2016-04-08 16:09:50 · 1892 阅读 · 0 评论 -
Spark机器学习API之特征处理(一)
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于转载 2016-06-01 16:00:24 · 5284 阅读 · 0 评论