spark
文章平均质量分 84
snaillup
这个作者很懒,什么都没留下…
展开
-
线搜索
之前的文章里我们的重点放在寻找L-BFGS算法的搜索方向上,本文将介绍L-BFGS算法用到的另一个重要算法–线搜索。原创 2016-12-10 15:44:07 · 866 阅读 · 0 评论 -
spark mllib源码分析之随机森林(Random Forest)(四)
spark随机森林源码分析的第四篇,主要介绍node的分裂,也就是主要的训练过程原创 2017-05-25 11:37:45 · 2169 阅读 · 0 评论 -
spark mllib源码分析之随机森林(Random Forest)(三)
spark 随机森林源码分析的第三篇,主要介绍分裂时使用的一些数据结构和节点选择原创 2017-05-07 19:16:26 · 2252 阅读 · 0 评论 -
spark mllib源码分析之随机森林(Random Forest)(一)
Spark在mllib中实现了tree相关的算法,其基础都是随机森林,本文及后续对RF的源码进行分析,介绍spark在实现过程中使用的一些技巧。如只对其使用感兴趣,则阅读本文就可以了。原创 2017-04-17 14:43:12 · 4215 阅读 · 0 评论 -
spark mllib源码分析之OWLQN
本文结合理论简介spark OWLQN算法的源码实现原创 2017-09-01 11:22:08 · 1412 阅读 · 0 评论 -
spark mllib源码分析之逻辑回归弹性网络ElasticNet(一)
我们将介绍spark在ml包中封装的逻辑回归Elastic Net,通过配置可以灵活的同时使用L1和L2,或者其一,同时根据正则化选择使用L-BFGS或OWLQN优化。本文是其中的第一篇,介绍模型训练,预测中使用的一些辅助类。原创 2017-08-03 19:19:48 · 3754 阅读 · 0 评论 -
spark mllib源码分析之逻辑回归弹性网络ElasticNet(二)
我们将介绍spark在ml包中封装的逻辑回归Elastic Net,通过配置可以灵活的同时使用L1和L2,或者其一,同时根据正则化选择使用L-BFGS或OWLQN优化。本文是其中的第二篇,介绍模型训练。原创 2017-08-14 11:32:34 · 3106 阅读 · 0 评论 -
spark mllib源码分析之L-BFGS(一)
简要介绍L-BFGS的原理,分析spark中L-BFGS的源码实现,这是第一部分原创 2017-07-05 19:53:48 · 2118 阅读 · 0 评论 -
spark mllib源码分析之L-BFGS(二)
spark L-BFGS的第二篇,主要介绍训练过程原创 2017-07-10 10:54:45 · 1446 阅读 · 0 评论 -
spark mllib源码分析之随机森林(Random Forest)(五)
spark随机森林源码分析最后一篇,主要介绍模型的保存、加载,总结spark实现的坑原创 2017-05-31 14:58:16 · 2024 阅读 · 2 评论 -
spark mllib源码分析之二分类逻辑回归的评价指标
介绍spark中二分类的评价指标及实现,包括AUC,召回率,F-measure等原创 2017-08-01 11:18:40 · 4740 阅读 · 2 评论 -
spark(breeze)L-BFGS使用的线搜索实现
上文我们介绍了线搜索及线搜索算法,而spark-breeze使用的正是强Wolfe条件搜索算法原创 2016-12-13 11:19:33 · 1456 阅读 · 0 评论 -
spark抽样之蓄水池抽样
spark随机森林的实现中用到了蓄水池抽样,主要是用在特征集抽样中,本文对蓄水池抽样的原理和spark源码进行简单分析。原创 2017-04-07 11:15:27 · 2081 阅读 · 0 评论 -
分布式数字化编码
在分布式应用中,有时候需要把一些东西,例如cookie,编码成int/long型数字,在这里提供一些思路。 1. 集中式编码 类似于单机,将所有cookie重新切分在一起,按次序编码var idnum:Long = 0idrdd.repartition(1).map(oriId => { idnum += 1 (oriId, idnum) }).rep原创 2017-04-07 15:38:32 · 1117 阅读 · 0 评论 -
spark L-BFGS实现
spark是直接调用的breeze库中的算法,具体是在LBFGS.AppoximateInverseHessian类重载了*运算符原创 2016-12-08 20:44:25 · 1729 阅读 · 0 评论 -
spark正则化
介绍了spark中L1与L2正则化的实现原创 2017-07-03 16:58:15 · 1513 阅读 · 0 评论 -
spark中的online均值/方差统计
介绍online均值/方差统计算法在spark中的实现原创 2017-07-16 18:07:25 · 2786 阅读 · 1 评论 -
spark mllib源码分析之随机森林(Random Forest)(二)
spark random forest源码分析系列之二,主要介绍特征、样本的处理原创 2017-04-26 17:52:41 · 3952 阅读 · 3 评论 -
组合数
排列组合是高中课程的重要内容,坑爹的计算各种花样百出的排列组合数。最近又遇到了组合,突然想起来刚毕业时,研究过这种方法,甚为巧妙,这里记录下。 组合有种应用是在把一堆物品分成两类,应该怎样分,有多少种分法,本文就是针对这种情况。1. 有多少种分法我们假设有k个物品,分别为k(0), …,k(n-1),则其分为两类可分成以下的情况分成1/(k-1)两类,则为C1kC_k^1分成2/(k-2)两类原创 2017-04-18 18:56:01 · 515 阅读 · 0 评论 -
spark mllib源码分析之DecisionTree与GBDT
相关文章 spark源码分析之随机森林(Random Forest)我们在前面的文章讲过,在spark的实现中,树模型的依赖链是GBDT-> Decision Tree-> Random Forest,前面介绍了最基础的Random Forest的实现,在此基础上我们介绍Decision Tree和GBDT的实现。1. Decision Tree1.1. DT的使用官方给原创 2017-07-03 16:25:10 · 3690 阅读 · 0 评论