![](https://img-blog.csdnimg.cn/20190419214402301.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark 2.0机器学习
本专栏是基于Scala编程的Spark 2.0机器学习。很早之前,使用的是Spark 1.6版本,直到后来,改为Spark 2.0,但苦于时间紧张,一直没来得及整理,如今整理如下,希望共同学习!本专栏以代码为主~
象在舞
谁说大象不能跳舞!
展开
-
Spark ML特征的提取、转换和选择
声明:代码主要以Scala为主,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》,欢迎大家关注。 一、特征的提取 1、TF-IDF(词频-逆向文档频率) TF(词频):HashingTF与CountVectorizer用于生成词频TF向量。HashingTF是一个特征词集的转换器(Tra...原创 2019-04-28 11:20:50 · 3830 阅读 · 5 评论 -
Spark ML数学基础
声明:代码主要以Scala为主,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》,欢迎大家关注。 一、矩阵向量计算 Spark MLlib底层的向量、矩阵运算使用了Breeze库,Breeze库提供了Vector/Matrix的实现以及相应计算的接口(Linalg)。但是在MLlib里面同...原创 2019-04-26 10:07:02 · 673 阅读 · 0 评论 -
Spark ML Pipelines(ML管道)
声明:代码主要以Scala为主,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》,欢迎大家关注。 一、Pipelines的主要概念 ML可以应用于各种各样的数据类型,比如向量、文本、图形和结构化数据、API采用Spark SQL的DataFrame就是为了支持各种各样的数据类型。 1、T...原创 2019-04-25 20:12:05 · 1966 阅读 · 0 评论 -
Spark DataSet介绍
声明:代码主要以Scala为主,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》,欢迎大家关注。 Spark的发展史可以简单概括为三个阶段,分别为:RDD、DataFrame和DataSet。在Spark 2.0之前,使用Spark必须先创建SparkConf和SparkContext,不过...原创 2019-04-25 14:45:39 · 7874 阅读 · 2 评论 -
spark2.0搭建standalone集群模式
最近因为工作,需要在已有的集群中添加spark2.0并且能够运行集群任务,原先的集群环境是基于cloudera manager搭建的,spark的版本是1.6,综合考虑之下,决定部署spark的standalone模式,具体操作过程如下:一、安装spark2.0之前首先要选择与之对应的Scala版本。这里我选用的spark版本是2.1.1,与之对应的Scala版本是2.12.2。首先...原创 2018-04-30 15:53:38 · 552 阅读 · 6 评论