自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Spark MLlib 机器学习

分布式机器学习爱好者,《Spark MLlib 机器学习》 电子工业出版社 于2016-03出版,欢迎大家关注!...

原创 Spark ML 基础:DataFrame、Dataset、feature

Spark ML 是基于DataFrame/ Dataset进行机器学习API的开发,随着Spark 2.0的发展,Dataset将成为主流,会逐步取代RDD、DataFrame,当然这个取代只是在Dataset实现已有RDD、DataFrame的API,大家以后就可以用Dataset的API来实...

2016-05-25 14:02:36

阅读数 18103

评论数 1

原创 Spark应用程序运行日志查看

比如,Spark应用程序代码如下: defseq(a: Int, b: Int): Int = {   println("seq: " + a + "\t "+ b)   math.max(a, b) }  defcomb(a: Int, b: Int): ...

2016-05-20 20:27:57

阅读数 18931

评论数 0

转载 Spark 2.0 技术预览版: Easier, Faster, and Smarter

For the past few months, we have been busy working on the next major release of the big data open source software we love: Apache Spark 2.0. Since Sp...

2016-05-12 11:49:48

阅读数 6589

评论数 3

原创 Spark MLlib 机器学习算法与源码解析(网络课程—第一期)

《Spark MLlib 机器学习算法与源码解析》spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集...

2016-05-11 17:12:36

阅读数 11978

评论数 1

原创 《Spark MLlib 机器学习》细节解释(持续更新)

1、        P220对该段文字的解决:得到最大bin 数量后,求最大split 数量。对于无序特征,split = bin 数目/2;对于有序特征,split = bin 数目–1。 其中有读者问到:对于无序特征,split = bin 数目/2这个的由来,解释如下: 1)首先计算numB...

2016-04-21 18:30:04

阅读数 13362

评论数 0

原创 《Spark MLlib 机器学习》勘误(持续更新)

《Spark MLlib 机器学习》勘误(持续更新)

2016-04-18 14:53:43

阅读数 6141

评论数 0

原创 《Spark MLlib 机器学习》第十五章代码

《Spark MLlib 机器学习》第十五章代码1、神经网络类package NN import org.apache.spark._ import org.apache.spark.SparkContext._ import org.apache.spark.rdd.RDD import or...

2016-04-13 15:27:17

阅读数 13124

评论数 8

原创 《Spark MLlib 机器学习》第十四章代码

《Spark MLlib 机器学习》第十四章代码1、相似度计算package recommend import scala.math._ import org.apache.spark.rdd.RDD import org.apache.spark.SparkContext._ /** * ...

2016-04-13 15:21:51

阅读数 7985

评论数 0

原创 《Spark MLlib 机器学习》第四章至十三章代码

《Spark MLlib 机器学习》第四章 至 第十三章代码,已经上传至网盘代码和数据地址网盘:http://pan.baidu.com/s/1c1J8ZN6

2016-04-13 15:17:19

阅读数 7207

评论数 0

原创 《Spark MLlib 机器学习》第三章代码

《Spark MLlib 机器学习》第三章代码3.1 Breeze 介绍package book_code import org.apache.log4j.{ Level, Logger } import org.apache.spark.{ SparkConf, SparkContext } ...

2016-04-12 17:39:42

阅读数 9944

评论数 0

原创 《Spark MLlib 机器学习》第二章代码

《Spark MLlib 机器学习》第二章代码2.1 Spark RDD 操作import org.apache.log4j.{ Level, Logger } import org.apache.spark.{ SparkConf, SparkContext } import org.apach...

2016-04-12 16:11:23

阅读数 14279

评论数 0

原创 《Spark MLlib机器学习》已正式上市发售

《Spark MLlib机器学习》已正式上市发售,请大家多多支持!!!! 购书地址: http://product.dangdang.com/23934484.html http://item.jd.com/11902946.html https://www.amazon.cn/Spark-MLl...

2016-04-11 11:22:23

阅读数 7483

评论数 3

原创 Spark MLlib机器学习—封面

Spark MLlib机器学习,目前已经正在印刷中,预计4月初可以正式上市,请大家多多关注! 封面如下:

2016-03-18 11:59:55

阅读数 2219

评论数 1

转载 Apache Arrow:一个跨平台的内存数据交换格式

1、Apache Arrow:一个跨平台的内存数据交换格式 Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。 用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也...

2016-03-11 11:25:44

阅读数 2315

评论数 0

原创 基于Spark自动扩展scikit-learn (spark-sklearn)

1、基于Spark自动扩展scikit-learn(spark-sklearn) 1.1 导论 Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法,比如在梯度下降算法中,单机做法是计算所有样本的梯度值,单机算法是以全体样本的计算单位;而分布式算法的逻辑是以每个样本为单位,在集...

2016-03-10 17:47:25

阅读数 14842

评论数 4

原创 Spark Datasets介绍

1、Spark Datasets介绍 1.1 背景 从Spark1.3.0版本开始推出DataFrame,DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更快。发布DataFrame之后开发者收到了很多反馈,其中一个主要的是大家反映缺乏...

2016-02-23 15:04:28

阅读数 3923

评论数 0

原创 Spark1.5.1 编译与安装

1、下载 下载地址: http://spark.apache.org/downloads.html 选择下载源码 2、源码编译 1)解压 tar -zxvf spark-1.5.1.tgz 2、编译 进入根目录下,采用make-distribution.sh进行编译。 cd spark-1....

2015-10-09 11:41:08

阅读数 5118

评论数 4

原创 Spark MLlib LDA 源码解析

1、Spark MLlib LDA源码解析 http://blog.csdn.net/sunbow0 Spark MLlib LDA 应该算是比较难理解的,其中涉及到大量的概率与统计的相关知识,而且还涉及到了Spark GraphX图计算方面的知识,要想明白其中的原理得要下一番功夫。LDA源码...

2015-08-14 15:37:08

阅读数 6482

评论数 0

转载 Spark GraphX Programming Guide 编程指南

6、 Spark GraphX Programming Guide 6.1 概述 GraphX是spark的一个新组件用于图和并行图计算。在一个高水平,GraphX通过引进一个新的图抽象扩展了spark RDD:带有顶点和边属性的有向多重图。为了支持图计算,GraphX 提供了很多基本的操作(...

2015-08-13 14:38:09

阅读数 2962

评论数 0

转载 Spark Graphx 构建graph和aggregateMessages聚合消息

Graphx:构建graph和聚合消息 @玄畅 2014.12.29 About 最近在优化kcore算法时,对Graphx代码看了几遍。1.2后Graphx性能有所提升,代码不太容易理解,现在用图表示出来会更直观。 对数学上的图有点印象的是x轴、y轴坐标图,坐标中每个点用横坐标x和纵坐标...

2015-08-13 12:03:21

阅读数 4219

评论数 0

原创 Spark MLlib LDA主题模型

1、Spark MLlib LDA主题模型(1) Spark MLlib LDA主题模型是Spark1.3开始加入的,具体介绍看以下文档: 官方编程指南: http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirich...

2015-08-07 11:52:22

阅读数 13049

评论数 10

原创 Spark1.4.1 编译与安装

1、下载 下载地址: http://spark.apache.org/downloads.html 选择下载源码 2、源码编译 1)解压 tar -zxvf spark-1.4.1.tgz 2、编译 进入根目录下,采用make-distribution.sh进行编译。 cd spar...

2015-07-27 18:05:59

阅读数 4875

评论数 2

原创 实例数据汇总

目前文章中使用的数据,如还有不全的,可以留言,我再找找! http://pan.baidu.com/s/1c0jRuWK

2015-07-27 11:10:47

阅读数 2739

评论数 7

原创 Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.3

3、Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.3 http://blog.csdn.net/sunbow0 第三章Convolution Neural Network (卷积神经网络) 3实例 3.1 测试...

2015-07-22 20:33:42

阅读数 5153

评论数 23

原创 Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.2

3、Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.2 http://blog.csdn.net/sunbow0 第三章Convolution Neural Network (卷积神经网络) 2基础及源码解析 2...

2015-07-22 20:33:20

阅读数 3589

评论数 1

原创 Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1

3、Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1 http://blog.csdn.net/sunbow0 Spark MLlib Deep Learning工具箱,是根据现有深度学习教程《UFLDL教程...

2015-07-22 20:32:42

阅读数 5918

评论数 3

原创 重要升级

2015-06-13 升级新爸爸,感谢老婆的无私与伟大; 目前休假中,奶爸的非常假期! 欢迎大家持续关注!

2015-06-23 18:37:52

阅读数 1642

评论数 3

原创 Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.3

Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.3 http://blog.csdn.net/sunbow0/ 第二章Deep Belief Network (深度信念网络) 3实例 3.1 测试数据 按照上例数据,或者新建...

2015-06-05 16:22:04

阅读数 3914

评论数 13

原创 Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.2

Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.2 http://blog.csdn.net/sunbow0 第二章Deep Belief Network (深度信念网络) 2基础及源码解析 2.1 Deep Belief ...

2015-06-05 15:59:06

阅读数 3359

评论数 5

原创 Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.1

Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.1 http://blog.csdn.net/sunbow0/ Spark MLlib Deep Learning工具箱,是根据现有深度学习教程《UFLDL教程》中的算法,在S...

2015-06-05 15:49:12

阅读数 3589

评论数 1

原创 Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.3

Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.3 http://blog.csdn.net/sunbow0/ 第一章Neural Net(神经网络) 3实例 3.1 测试数据 3.1.1 测试函数 采用智能优化算法的经典测试函数,如下: (1)S...

2015-05-28 18:20:44

阅读数 3343

评论数 3

原创 Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.2

Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.2 http://blog.csdn.net/sunbow0/ 第一章Neural Net(神经网络) 2基础及源码解析 2.1 Neural Net神经网络基础知识 2.1.1 神经网络 基础知...

2015-05-28 18:09:55

阅读数 6015

评论数 20

原创 Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.1

Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.1 http://blog.csdn.net/sunbow0/ Spark MLlib Deep Learning工具箱,是根据现有深度学习教程《UFLDL教程》中的算法,在SparkMLlib中的...

2015-05-28 18:01:09

阅读数 9111

评论数 3

原创 Spark MLlib KMeans聚类算法

1.1 KMeans聚类算法 1.1.1 基础理论 KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。 K-Means聚类算法主要分为三个步骤: (1)第一步...

2015-05-12 19:13:05

阅读数 8771

评论数 0

原创 Spark MLlib Statistics统计

1、Spark MLlib Statistics统计 Spark Mllib 统计模块代码结构如下: 1.1 列统计汇总 计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。     //读取数据,转换成RDD[Vector]类型     val data_...

2015-05-11 15:06:46

阅读数 7553

评论数 0

原创 Spark MLlib FPGrowth算法

1.1 FPGrowth算法 1.1.1 基本概念 关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。 关联规...

2015-05-09 16:35:21

阅读数 11797

评论数 2

原创 Spark MLlib SVM算法

1.1 SVM支持向量机算法 支持向量机理论知识参照以下文档: 支持向量机SVM(一) http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html 支持向量机SVM(二) http://www.cnblogs.com/...

2015-05-08 17:18:08

阅读数 9747

评论数 1

原创 Spark MLlib Logistic Regression逻辑回归算法

1.1 逻辑回归算法 1.1.1 基础理论 logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。 它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从...

2015-05-07 17:13:35

阅读数 14189

评论数 0

原创 Spark MLlib Linear Regression线性回归算法

1、Spark MLlib Linear Regression线性回归算法 1.1 线性回归算法 1.1.1 基础理论 在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多...

2015-05-06 18:43:02

阅读数 12881

评论数 1

原创 Spark Mlib BLAS线性代数运算库

1.4 BLAS (BLAS routines for MLlib's vectors and matrices.) BLAS(Basic Linear Algebra Subprograms,基础线性代数程序集)是一个应用程序接口(API)标准,用以规范发布基础线性代数操作的数值库(...

2015-05-05 17:25:06

阅读数 8360

评论数 2

提示
确定要删除当前文章?
取消 删除