bitcarmanlee的博客

专注算法与数据,正在计划写机器学习方面的数学书籍,有出版社的朋友请联系。微信1833133594...

hadoop SequenceFile详解

1. 什么是SequenceFile1.1.sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。 1.2.可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进...

2017-09-27 11:46:20

阅读数 3693

评论数 0

spark aggregate函数详解

aggregate算是spark中比较常用的一个函数,理解起来会比较费劲一些,现在通过几个详细的例子带大家来着重理解一下aggregate的用法。1.先看看aggregate的函数签名在spark的源码中,可以看到aggregate函数的签名如下:def aggregate[U: ClassTag...

2017-09-25 18:53:39

阅读数 6355

评论数 1

DOT + graphviz 轻松画图神器

本人是个不会画图的屌丝,一方面是因为需要画图的地方很少,另一方面也是因为即使需要画图,也都是很简单的几个框几个圈几条线,所以就用word之类的原始工具直接上了,结果往往是痛苦的经历换来搓搓的一张图,而且图很难修改,遇到需求变更时往往牵一发而动全身,所以每次听说画图,总有背后一凉的感觉。最近经同事介...

2017-09-20 09:49:32

阅读数 1666

评论数 0

missing arguments for method toArray in trait Collection

spark 任务中有如下一段代码: .combineByKey((v: String) => { val map = new util.TreeMap[String, String]() val (time...

2017-09-19 17:00:20

阅读数 492

评论数 0

scala for循环

1.与yield配合生成一个新的序列for循环与yield配合,可以生成一个新的序列。看个简单的例子:val res = for(i <- 1 to 8 if i%2 == 0) yield i println(res)最后的输出结果为:Vector(2, 4, 6, 8)2.生成一个递减的...

2017-09-19 16:29:14

阅读数 478

评论数 0

函数成了一等公民

函数式编程是这几年很受欢迎的一个话题,即使你是一个刚刚踏入职场的新人,如果在面试时能有意无意地透露出你懂那么一点点函数式编程,也会让你的面试官眼前一亮。然而函数式编程并不是一个新的概念,它的源头可以追溯到计算机尚未发明之前。本文将带领大家回顾一下函数式编程的历史,并使用 Scala 语言为大家讲解...

2017-09-19 09:54:18

阅读数 702

评论数 0

scala中的柯里化函数

1.什么是柯里化函数在scala相关的教程与参考文档里,经常会看到柯里化函数这个词。但是对于具体什么是柯里化函数,柯里化函数又有什么作用,其实可能很多同学都会有些疑惑。今天就跟大家来掰扯掰扯柯里化函数(Curry)。首先看两个简单的函数: def add(x: Int, y: Int) = ...

2017-09-15 18:36:31

阅读数 1104

评论数 0

sklearn 中GBDT的损失函数

1.分类模型分类模型的损失函数包括有”deviance”和指数损失函数”exponential”,默认为对数损失函数。 相关参考链接: 1.损失函数 http://www.csuldw.com/2016/03/26/2016-03-26-loss-function/ 2.Adaboost与指...

2017-09-09 21:33:03

阅读数 2288

评论数 1

spark生成DataFrame

1.为什么要有DataFrameSpark中的RDD叫做分布式弹性数据集。RDD是一个粗粒度的分布式计算,用函数声明式的api就能完成分布式的计算,比如wordcount,在mapreduce要写比较冗长的代码,而在Spark中可以用一行代码搞定。 既然RDD这么简单方便,为什么还要搞出一个Da...

2017-09-07 18:28:17

阅读数 1050

评论数 0

Spark2.1特征处理:提取/转换/选择

1.Feature Extractors(特征提取)1.1 TF-IDF词频(Term Frequency)- 逆向文档频率(Inverse Document Frequency) 是一种特征矢量化方法,广泛应用于文本挖掘,用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。定义...

2017-09-06 17:43:17

阅读数 2378

评论数 0

GBDT实战

1.GBDT介绍GBDT(Gradient Boosting Decision Tree) 或者称为MART(Multiple Additive Regression Tree),也可叫GBRT(Gradient Boosting Regression Tree),是一种基于回归决策树的Boost...

2017-09-05 21:56:18

阅读数 2395

评论数 0

anaconda升级sklearn版本

调用sklearn的model_selection时,发现sklearn中没有model_selection的模块。经过检查,发现anaconda中的sklearn版本太低,为0.17版本。于是,开始了sklearn的升级之旅。1.查看原有版本首先使用conda list命令,查看一下现有的版本:...

2017-09-05 21:18:15

阅读数 15607

评论数 2

深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)

原文链接地址:http://blog.csdn.net/u012759136/article/details/52302426本文仅对一些常见的优化方法进行直观介绍和简单的比较,各种优化方法的详细内容及公式只好去认真啃论文了,在此我就不赘述了。1.SGD此处的SGD指mini-batch grad...

2017-09-03 20:40:35

阅读数 484

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭