[6]sparkMLib
文章平均质量分 83
hjw199089
从事大数据
(1)查询引擎开发-presto深度开发-hive开发-自研查询引擎开发
(2)大数据用户行为分析
(3)spark、sparkstreaming、storm、druid开发应用经验
(4)数据仓库开发
展开
-
基于sparkMLlib的机器学习_[1]_基本数据类型[1]本地向量
基于sparkMLlib的机器学习_[1]_基本数据类型[1]MLLIB中基本数据类型 参考: 《spark MLlib机器学习实践》 《SPARK MLLIB机器学习 算法、源码及实战详解》 http://spark.apache.org/docs/latest/ml-guide.html 1-基本数据类型Local vector 本地向量 Labeled point原创 2017-01-18 14:42:00 · 454 阅读 · 0 评论 -
基于sparkMLlib的机器学习_[1]_基本数据类型[2]向量标签LabeledPoint
向量标签作用:标识不同值 1:直接静态生成向量标签 标记点 内容 2:文件API生成 loadLibSVMFile 格式:(标签,稀疏向量) 1)索引要从1开始,从0开始的时候生成的内部索引时从-1开始,而且数据长度会比实际少1; 2)数据的长度是以最大列数为准的,因此最好是要保持数据列数一致; 3)标签列可以重复 相关资料: 生成libSVM的数据格式及使用方法总结:点原创 2017-01-19 00:20:18 · 6519 阅读 · 0 评论 -
基于sparkMLlib的机器学习_[1]_基本数据类型[3]本地矩阵Local Matrix
提高效率,矩阵运算 (1)Matrices.dense(行,列,Array(元素)) 备注: 行列size必须和Array(元素)一致,缺多均throw error package com.dt.spark.main.MLlib.BasicConcept import org.apache.spark.mllib.linalg.Matrices /** * Created by原创 2017-01-19 20:32:40 · 647 阅读 · 0 评论 -
基于sparkMLlib的机器学习_[1]_基本数据类型[4]分布式矩阵DistrubutedMatrix
参考: 《spark MLlib机器学习实践》 《SPARK MLLIB机器学习 算法、源码及实战详解》 http://spark.apache.org/docs/latest/ml-guide.html 分布式矩阵:当数据量较大时使用,行和列为Long,值为Double 按照存储形式: (1) 行矩阵 (2) 索引行矩阵 (3) 坐标矩阵 (4) 块矩阵 1-行矩阵 相同格式的特征向量的集合原创 2017-01-19 23:23:23 · 480 阅读 · 0 评论 -
基于sparkMLlib的机器学习_[2]_基本算法[1]协同过滤算法
一、协同过滤算法 1-1基本概述 基于用户或物品的推荐算法,人以群分,物以类聚 (1) 基于用户,“人以群分” 孩童A和孩童B是“志同道合”的基友(相似度很高),将A喜欢的物品推荐给B是合理的原创 2017-01-20 00:12:38 · 467 阅读 · 0 评论