spark ml 机器学习源码
文章平均质量分 78
chencheng12077
这个作者很懒,什么都没留下…
展开
-
spark ml 随机森林源码笔记一
以回归为例吧,回归在某些场合可能更精准支持连续变量和类别变量,类别变量就是某个属性有三个值,a,b,c,需要用Feature Transformers中的vectorindexer处理上来是一堆参数setMaxDepth:最大树深度setMaxBins:最大装箱数,为了近似统计变量,比如变量有100个值,我只分成10段去做统计setMinInstancesPerNo原创 2016-10-09 14:07:02 · 7441 阅读 · 1 评论 -
spark ml 推荐源码笔记一
首先是trait ALSModelParams,主要设置了user和item的默认列名接下来又是一个trait ALSParams,参数包括rank:矩阵因子等级,是大于等于1的整数,默认10,例如user对item的评分,最多是10numUserBlocks:用户矩阵分块数,是大于等于1的整数,默认是10numItemBlocks:项目矩阵分块数,是大于等于1的整数,默认是原创 2016-10-28 11:27:24 · 1964 阅读 · 0 评论 -
spark ml 推荐源码笔记二
上次我们讲到als对象train方法的val solver = if (nonnegative) new NNLSSolver else new CholeskySolver原创 2016-11-10 15:09:49 · 773 阅读 · 0 评论 -
spark ml 推荐源码笔记三
上一篇讲到 val (userInBlocks, userOutBlocks) = makeBlocks("user", blockRatings, userPart, itemPart, intermediateRDDStorageLevel)(userInBlocks, userOutBlocks)就是上篇最终结果inBlock,outBlock,继续看原创 2016-11-17 11:30:14 · 688 阅读 · 0 评论 -
spark ml 随机森林源码笔记五
这应该是最后随机森林的最后一篇了原创 2016-10-27 17:06:02 · 497 阅读 · 0 评论 -
spark ml 随机森林源码笔记四
继续binsToBestSplit原创 2016-10-21 18:04:40 · 552 阅读 · 0 评论 -
spark ml 随机森林源码笔记三
二已经很长了,告一段路,从三开始真正构建决策森林,首先创建缓存节点id的RDD,让所有点属于跟节点 val nodeIdCache = if (strategy.useNodeIdCache) { Some(NodeIdCache.init( data = baggedInput, numTrees = numTrees,原创 2016-10-14 11:24:16 · 922 阅读 · 0 评论 -
spark ml 随机森林源码笔记二
书接上回,该分析run方法了,有1000多行,该方法主要是根据数据和参数,训练生成一组树,就是决策森林开始先干了一件事 val metadata = DecisionTreeMetadata.buildMetadata(retaggedInput, strategy, numTrees, featureSubsetStrategy)这里构建决策树的元数据pr原创 2016-10-10 16:30:08 · 859 阅读 · 0 评论 -
spark ml 聚类源码笔记一
首先是参数k : 聚类数,默认2initMode : 初始化算法的参数,可以是RANDOM或K_MEANS_PARALLEL,RANDOM是随机选择初始聚类中心,K_MEANS_PARALLEL是使用算法选择初始聚类中心,也是默认情况initSteps : K_MEANS_PARALLEL方法迭代步数,默认5接下来是一些重要的方法private[clustering原创 2017-02-08 19:18:21 · 1283 阅读 · 0 评论