Spark MLlib 机器学习

分布式机器学习爱好者,《Spark MLlib 机器学习》 电子工业出版社 于2016-03出版,欢迎大家关注!...

排序:
默认
按更新时间
按访问量

Spark ML 基础:DataFrame、Dataset、feature

Spark ML 是基于DataFrame/ Dataset进行机器学习API的开发,随着Spark 2.0的发展,Dataset将成为主流,会逐步取代RDD、DataFrame,当然这个取代只是在Dataset实现已有RDD、DataFrame的API,大家以后就可以用Dataset的API来实...

2016-05-25 14:02:36

阅读数:16092

评论数:0

Spark应用程序运行日志查看

比如,Spark应用程序代码如下: defseq(a: Int, b: Int): Int = {   println("seq: " + a + "\t "+ b)   math.max(a, b) }  defcomb(a: Int, b: Int): ...

2016-05-20 20:27:57

阅读数:14088

评论数:0

Spark 2.0 技术预览版: Easier, Faster, and Smarter

For the past few months, we have been busy working on the next major release of the big data open source software we love: Apache Spark 2.0. Since Sp...

2016-05-12 11:49:48

阅读数:6383

评论数:3

Spark MLlib 机器学习算法与源码解析(网络课程—第一期)

《Spark MLlib 机器学习算法与源码解析》spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集...

2016-05-11 17:12:36

阅读数:10891

评论数:1

《Spark MLlib 机器学习》细节解释(持续更新)

1、        P220对该段文字的解决:得到最大bin 数量后,求最大split 数量。对于无序特征,split = bin 数目/2;对于有序特征,split = bin 数目–1。 其中有读者问到:对于无序特征,split = bin 数目/2这个的由来,解释如下: 1)首先计算numB...

2016-04-21 18:30:04

阅读数:12759

评论数:0

《Spark MLlib 机器学习》勘误(持续更新)

《Spark MLlib 机器学习》勘误(持续更新)

2016-04-18 14:53:43

阅读数:5911

评论数:0

《Spark MLlib 机器学习》第十五章代码

《Spark MLlib 机器学习》第十五章代码1、神经网络类package NN import org.apache.spark._ import org.apache.spark.SparkContext._ import org.apache.spark.rdd.RDD import or...

2016-04-13 15:27:17

阅读数:12674

评论数:6

《Spark MLlib 机器学习》第十四章代码

《Spark MLlib 机器学习》第十四章代码1、相似度计算package recommend import scala.math._ import org.apache.spark.rdd.RDD import org.apache.spark.SparkContext._ /** * ...

2016-04-13 15:21:51

阅读数:7682

评论数:0

《Spark MLlib 机器学习》第四章至十三章代码

《Spark MLlib 机器学习》第四章 至 第十三章代码,已经上传至网盘代码和数据地址网盘:http://pan.baidu.com/s/1c1J8ZN6

2016-04-13 15:17:19

阅读数:6899

评论数:0

《Spark MLlib 机器学习》第三章代码

《Spark MLlib 机器学习》第三章代码3.1 Breeze 介绍package book_code import org.apache.log4j.{ Level, Logger } import org.apache.spark.{ SparkConf, SparkContext } ...

2016-04-12 17:39:42

阅读数:9642

评论数:0

《Spark MLlib 机器学习》第二章代码

《Spark MLlib 机器学习》第二章代码2.1 Spark RDD 操作import org.apache.log4j.{ Level, Logger } import org.apache.spark.{ SparkConf, SparkContext } import org.apach...

2016-04-12 16:11:23

阅读数:13744

评论数:0

《Spark MLlib机器学习》已正式上市发售

《Spark MLlib机器学习》已正式上市发售,请大家多多支持!!!! 购书地址: http://product.dangdang.com/23934484.html http://item.jd.com/11902946.html https://www.amazon.cn/Spark-MLl...

2016-04-11 11:22:23

阅读数:7178

评论数:4

Spark MLlib机器学习—封面

Spark MLlib机器学习,目前已经正在印刷中,预计4月初可以正式上市,请大家多多关注! 封面如下:

2016-03-18 11:59:55

阅读数:2005

评论数:1

Apache Arrow:一个跨平台的内存数据交换格式

1、Apache Arrow:一个跨平台的内存数据交换格式 Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。 用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也...

2016-03-11 11:25:44

阅读数:1695

评论数:0

基于Spark自动扩展scikit-learn (spark-sklearn)

1、基于Spark自动扩展scikit-learn(spark-sklearn) 1.1 导论 Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法,比如在梯度下降算法中,单机做法是计算所有样本的梯度值,单机算法是以全体样本的计算单位;而分布式算法的逻辑是以每个样本为单位,在集...

2016-03-10 17:47:25

阅读数:8941

评论数:3

Spark Datasets介绍

1、Spark Datasets介绍 1.1 背景 从Spark1.3.0版本开始推出DataFrame,DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更快。发布DataFrame之后开发者收到了很多反馈,其中一个主要的是大家反映缺乏...

2016-02-23 15:04:28

阅读数:3461

评论数:0

Spark1.5.1 编译与安装

1、下载 下载地址: http://spark.apache.org/downloads.html 选择下载源码 2、源码编译 1)解压 tar -zxvf spark-1.5.1.tgz 2、编译 进入根目录下,采用make-distribution.sh进行编译。 cd spark-1....

2015-10-09 11:41:08

阅读数:4849

评论数:4

Spark MLlib LDA 源码解析

1、Spark MLlib LDA源码解析 http://blog.csdn.net/sunbow0 Spark MLlib LDA 应该算是比较难理解的,其中涉及到大量的概率与统计的相关知识,而且还涉及到了Spark GraphX图计算方面的知识,要想明白其中的原理得要下一番功夫。LDA源码...

2015-08-14 15:37:08

阅读数:5803

评论数:0

Spark GraphX Programming Guide 编程指南

6、 Spark GraphX Programming Guide 6.1 概述 GraphX是spark的一个新组件用于图和并行图计算。在一个高水平,GraphX通过引进一个新的图抽象扩展了spark RDD:带有顶点和边属性的有向多重图。为了支持图计算,GraphX 提供了很多基本的操作(...

2015-08-13 14:38:09

阅读数:2632

评论数:0

Spark Graphx 构建graph和aggregateMessages聚合消息

Graphx:构建graph和聚合消息 @玄畅 2014.12.29 About 最近在优化kcore算法时,对Graphx代码看了几遍。1.2后Graphx性能有所提升,代码不太容易理解,现在用图表示出来会更直观。 对数学上的图有点印象的是x轴、y轴坐标图,坐标中每个点用横坐标x和纵坐标...

2015-08-13 12:03:21

阅读数:3363

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭