[6]sparkMLib
文章平均质量分 83
hjw199089
从事大数据
(1)查询引擎开发-presto深度开发-hive开发-自研查询引擎开发
(2)大数据用户行为分析
(3)spark、sparkstreaming、storm、druid开发应用经验
(4)数据仓库开发
展开
-
基于sparkMLlib的机器学习_[1]_基本数据类型[1]本地向量
基于sparkMLlib的机器学习_[1]_基本数据类型[1]MLLIB中基本数据类型参考:《spark MLlib机器学习实践》《SPARK MLLIB机器学习 算法、源码及实战详解》http://spark.apache.org/docs/latest/ml-guide.html1-基本数据类型Local vector 本地向量Labeled point原创 2017-01-18 14:42:00 · 454 阅读 · 0 评论 -
基于sparkMLlib的机器学习_[1]_基本数据类型[2]向量标签LabeledPoint
向量标签作用:标识不同值1:直接静态生成向量标签标记点内容2:文件API生成loadLibSVMFile格式:(标签,稀疏向量)1)索引要从1开始,从0开始的时候生成的内部索引时从-1开始,而且数据长度会比实际少1;2)数据的长度是以最大列数为准的,因此最好是要保持数据列数一致;3)标签列可以重复相关资料:生成libSVM的数据格式及使用方法总结:点原创 2017-01-19 00:20:18 · 6519 阅读 · 0 评论 -
基于sparkMLlib的机器学习_[1]_基本数据类型[3]本地矩阵Local Matrix
提高效率,矩阵运算(1)Matrices.dense(行,列,Array(元素))备注:行列size必须和Array(元素)一致,缺多均throw errorpackage com.dt.spark.main.MLlib.BasicConceptimport org.apache.spark.mllib.linalg.Matrices/** * Created by原创 2017-01-19 20:32:40 · 649 阅读 · 0 评论 -
基于sparkMLlib的机器学习_[1]_基本数据类型[4]分布式矩阵DistrubutedMatrix
参考:《spark MLlib机器学习实践》《SPARK MLLIB机器学习 算法、源码及实战详解》http://spark.apache.org/docs/latest/ml-guide.html分布式矩阵:当数据量较大时使用,行和列为Long,值为Double按照存储形式:(1) 行矩阵(2) 索引行矩阵(3) 坐标矩阵(4) 块矩阵1-行矩阵相同格式的特征向量的集合原创 2017-01-19 23:23:23 · 480 阅读 · 0 评论 -
基于sparkMLlib的机器学习_[2]_基本算法[1]协同过滤算法
一、协同过滤算法1-1基本概述基于用户或物品的推荐算法,人以群分,物以类聚(1) 基于用户,“人以群分”孩童A和孩童B是“志同道合”的基友(相似度很高),将A喜欢的物品推荐给B是合理的原创 2017-01-20 00:12:38 · 468 阅读 · 0 评论