Machine Learning On Spark
文章平均质量分 69
介绍内存计算框架Spark上的机器学习算法原理、源码解析及应用实战相关,算法主要包括:逻辑回归算法、K均值算法等机器学习经典算法,还包括协同过滤等推荐算法,卷积神经网络等深度学习算法在Spark中的实现
zhouzhihubeyond
大数据技术爱好者,主要关注Spark、Hadoop、Storm、Hive、HBase等开源大数据技术,专注于大数据机器学习算法研究
展开
-
Machine Learning on Spark——第四节 统计基础(二)
作者:周志湖 微信号:zhouzhihubeyond本节主要内容 Correlation 相关性分析 分层采样(Stratified sampling) 随机数据生成(Random data generation) 1. Correlation 相关性分析相关性分析用于研究两个随机变量之间的依赖关系,它是统计学当中的一种十分重要的方法,在Spark中只实现了两种相关性分析方法,分别是皮尔逊(Pea原创 2015-09-14 22:43:43 · 6144 阅读 · 0 评论 -
Machine Learning on Spark——第三节 统计基础(一)
作者:周志湖 微信号:zhouzhihubeyond本文主要内容本文对了org.apache.spark.mllib.stat包及子包中的相关统计类进行介绍,stat包中包括下图中的类或对象: 本文将对其中的内容进行详细讲解 获取矩阵列(column-wise)统计信息 Kernel density estimation(核密度估计) Hypothesis testing(假设检验) 1.原创 2015-09-14 17:12:31 · 6068 阅读 · 0 评论 -
Machine Learning On Spark——第二节:基础数据结构(二)
本节主要内容 IndexedRowMatrix BlockMatrix 1. IndexedRowMatrix的使用IndexedRowMatrix,顾名思义就是带索引的RowMatrix,它采用case class IndexedRow(index: Long, vector: Vector)类来表示矩阵的一行,index表示的就是它的索引,vector表示其要存储的内容。其使用方式如下:pack原创 2015-09-14 10:42:40 · 5760 阅读 · 0 评论 -
Machine Learning On Spark——第一节:基础数据结构(一)
## 本节主要内容 ## 1. 本地向量和矩阵 2. 带类标签的特征向量(Labeled point) 3. 分布式矩阵 ## 1. 本地向量和矩阵 ## 本地向量(Local Vector)存储在单台机器上,索引采用0开始的整型表示,值采用Double类型的值表示。Spark MLlib中支持两种类型的矩阵,分别是密度向量(Dense Vector)和稀疏向量(Spasre Vector),密度向量会存原创 2015-09-13 21:31:02 · 15558 阅读 · 6 评论