自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 基于时间的反向传播算法BPTT(Backpropagation through time)

本文介绍BPTT的原理和实现,是读“Recurrent Neural Networks Tutorial, Part 3 – Backpropagation Through Time and Vanishing Gradients”的读书笔记,代码也来自于这篇文章,加了部分注释。

2017-11-29 19:49:07 6718 2

原创 spark mllib源码分析之OWLQN

本文结合理论简介spark OWLQN算法的源码实现

2017-09-01 11:22:08 1363

原创 spark mllib源码分析之逻辑回归弹性网络ElasticNet(二)

我们将介绍spark在ml包中封装的逻辑回归Elastic Net,通过配置可以灵活的同时使用L1和L2,或者其一,同时根据正则化选择使用L-BFGS或OWLQN优化。本文是其中的第二篇,介绍模型训练。

2017-08-14 11:32:34 3043

原创 spark mllib源码分析之逻辑回归弹性网络ElasticNet(一)

我们将介绍spark在ml包中封装的逻辑回归Elastic Net,通过配置可以灵活的同时使用L1和L2,或者其一,同时根据正则化选择使用L-BFGS或OWLQN优化。本文是其中的第一篇,介绍模型训练,预测中使用的一些辅助类。

2017-08-03 19:19:48 3686

原创 spark mllib源码分析之二分类逻辑回归的评价指标

介绍spark中二分类的评价指标及实现,包括AUC,召回率,F-measure等

2017-08-01 11:18:40 4678 2

原创 spark中的online均值/方差统计

介绍online均值/方差统计算法在spark中的实现

2017-07-16 18:07:25 2722 1

原创 spark mllib源码分析之L-BFGS(二)

spark L-BFGS的第二篇,主要介绍训练过程

2017-07-10 10:54:45 1425

原创 spark mllib源码分析之L-BFGS(一)

简要介绍L-BFGS的原理,分析spark中L-BFGS的源码实现,这是第一部分

2017-07-05 19:53:48 2055

原创 spark正则化

介绍了spark中L1与L2正则化的实现

2017-07-03 16:58:15 1462

原创 spark mllib源码分析之DecisionTree与GBDT

相关文章 spark源码分析之随机森林(Random Forest)我们在前面的文章讲过,在spark的实现中,树模型的依赖链是GBDT-> Decision Tree-> Random Forest,前面介绍了最基础的Random Forest的实现,在此基础上我们介绍Decision Tree和GBDT的实现。1. Decision Tree1.1. DT的使用官方给

2017-07-03 16:25:10 3645

原创 spark mllib源码分析之随机森林(Random Forest)(五)

spark随机森林源码分析最后一篇,主要介绍模型的保存、加载,总结spark实现的坑

2017-05-31 14:58:16 1967 2

原创 spark mllib源码分析之随机森林(Random Forest)(四)

spark随机森林源码分析的第四篇,主要介绍node的分裂,也就是主要的训练过程

2017-05-25 11:37:45 2113

原创 spark mllib源码分析之随机森林(Random Forest)(三)

spark 随机森林源码分析的第三篇,主要介绍分裂时使用的一些数据结构和节点选择

2017-05-07 19:16:26 2208

原创 spark mllib源码分析之随机森林(Random Forest)(二)

spark random forest源码分析系列之二,主要介绍特征、样本的处理

2017-04-26 17:52:41 3899 3

原创 组合数

排列组合是高中课程的重要内容,坑爹的计算各种花样百出的排列组合数。最近又遇到了组合,突然想起来刚毕业时,研究过这种方法,甚为巧妙,这里记录下。 组合有种应用是在把一堆物品分成两类,应该怎样分,有多少种分法,本文就是针对这种情况。1. 有多少种分法我们假设有k个物品,分别为k(0), …,k(n-1),则其分为两类可分成以下的情况分成1/(k-1)两类,则为C1kC_k^1分成2/(k-2)两类

2017-04-18 18:56:01 473

原创 spark mllib源码分析之随机森林(Random Forest)(一)

Spark在mllib中实现了tree相关的算法,其基础都是随机森林,本文及后续对RF的源码进行分析,介绍spark在实现过程中使用的一些技巧。如只对其使用感兴趣,则阅读本文就可以了。

2017-04-17 14:43:12 4134

原创 分布式数字化编码

在分布式应用中,有时候需要把一些东西,例如cookie,编码成int/long型数字,在这里提供一些思路。 1. 集中式编码 类似于单机,将所有cookie重新切分在一起,按次序编码var idnum:Long = 0idrdd.repartition(1).map(oriId => { idnum += 1 (oriId, idnum) }).rep

2017-04-07 15:38:32 1092

原创 spark抽样之蓄水池抽样

spark随机森林的实现中用到了蓄水池抽样,主要是用在特征集抽样中,本文对蓄水池抽样的原理和spark源码进行简单分析。

2017-04-07 11:15:27 2056

原创 Hadoop二次排序

最近在特征开发的过程中,遇到这样的场景,A文件中存储着一些属性(例如文档的ctr),需要将这些属性set到B文件中的文档中,在Hadoop程序设计中,一般是在map中读入文件,然后输出以文档id为key,进入reduce后,先循环遍历value,找到A中的属性值,把B中的文档集记录在List中,然后再循环这个List,把A的属性值set进去,示例代码如下mapper中if(from()=="

2016-12-30 17:50:12 443

原创 Java多线程同步辅助类与异常处理简介

线程同步辅助类 在使用Java多线程时,经常需要进行多线程同步,我在写一个用于Hadoop的调度框架中就遇到了类似的问题,调度主线程在发起并行任务后,需要原地等待各子线程执行完毕,才能继续执行,我尝试了两种方法。 (1)CyclicBarrier 下面给出示例代码调度线程try{ List<MrJob> paralJobList = jobExeUnit.getMrjobList(

2016-12-30 14:48:30 772

原创 spark(breeze)L-BFGS使用的线搜索实现

上文我们介绍了线搜索及线搜索算法,而spark-breeze使用的正是强Wolfe条件搜索算法

2016-12-13 11:19:33 1438

原创 线搜索

之前的文章里我们的重点放在寻找L-BFGS算法的搜索方向上,本文将介绍L-BFGS算法用到的另一个重要算法–线搜索。

2016-12-10 15:44:07 840

原创 spark L-BFGS实现

spark是直接调用的breeze库中的算法,具体是在LBFGS.AppoximateInverseHessian类重载了*运算符

2016-12-08 20:44:25 1702

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除