Spark ML 基础:DataFrame、Dataset、feature

Spark ML 是基于DataFrame/ Dataset进行机器学习API的开发,随着Spark 2.0的发展,Dataset将成为主流,会逐步取代RDD、DataFrame,当然这个取代只是在Dataset实现已有RDD、DataFrame的API,大家以后就可以用Dataset的API来实现计算逻辑,所以大家不用担心之前学会的RDD、DataFrame没有用处。博主一般喜欢从源码的角度来看...
阅读(11423) 评论(0)

Spark应用程序运行日志查看

比如,Spark应用程序代码如下: defseq(a: Int, b: Int): Int = {   println("seq: " + a + "\t "+ b)   math.max(a, b) }  defcomb(a: Int, b: Int): Int = {   println("comb: " + a + "\t "+ b)   a + b  }    vardata11= sc....
阅读(10190) 评论(0)

Spark 2.0 技术预览版: Easier, Faster, and Smarter

For the past few months, we have been busy working on the next major release of the big data open source software we love: Apache Spark 2.0. Since Spark 1.0 came out two years ago, we have heard prais...
阅读(5946) 评论(3)

Spark MLlib 机器学习算法与源码解析(网络课程—第一期)

《Spark MLlib 机器学习算法与源码解析》spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。目前,Spark成为了现在大数据领域最火的开源软...
阅读(8437) 评论(1)

《Spark MLlib 机器学习》细节解释(持续更新)

1、        P220对该段文字的解决:得到最大bin 数量后,求最大split 数量。对于无序特征,split = bin 数目/2;对于有序特征,split = bin 数目–1。 其中有读者问到:对于无序特征,split = bin 数目/2这个的由来,解释如下: 1)首先计算numBins:        // 当前的特征数量小于m值,则认为无序        if (numCate...
阅读(11689) 评论(0)

《Spark MLlib 机器学习》勘误(持续更新)

《Spark MLlib 机器学习》勘误(持续更新)...
阅读(5473) 评论(0)

《Spark MLlib 机器学习》第十五章代码

《Spark MLlib 机器学习》第十五章代码1、神经网络类package NN import org.apache.spark._ import org.apache.spark.SparkContext._ import org.apache.spark.rdd.RDD import org.apache.spark.Logging import org.apache.spark.mlli...
阅读(11785) 评论(3)

《Spark MLlib 机器学习》第十四章代码

《Spark MLlib 机器学习》第十四章代码1、相似度计算package recommend import scala.math._ import org.apache.spark.rdd.RDD import org.apache.spark.SparkContext._ /** * 用户评分. * @param userid 用户 * @param itemid 评分物品 *...
阅读(6973) 评论(0)

《Spark MLlib 机器学习》第四章至十三章代码

《Spark MLlib 机器学习》第四章 至 第十三章代码,已经上传至网盘代码和数据地址网盘:http://pan.baidu.com/s/1c1J8ZN6...
阅读(6317) 评论(0)

《Spark MLlib 机器学习》第三章代码

《Spark MLlib 机器学习》第三章代码3.1 Breeze 介绍package book_code import org.apache.log4j.{ Level, Logger } import org.apache.spark.{ SparkConf, SparkContext } import breeze.linalg._ import breeze.numerics._ imp...
阅读(8981) 评论(0)

《Spark MLlib 机器学习》第二章代码

《Spark MLlib 机器学习》第二章代码2.1 Spark RDD 操作import org.apache.log4j.{ Level, Logger } import org.apache.spark.{ SparkConf, SparkContext } import org.apache.spark.SparkContext._ object rdd_test01 { def...
阅读(12485) 评论(0)

《Spark MLlib机器学习》已正式上市发售

《Spark MLlib机器学习》已正式上市发售,请大家多多支持!!!! 购书地址: http://product.dangdang.com/23934484.html http://item.jd.com/11902946.html https://www.amazon.cn/Spark-MLlib%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E7%AE%9...
阅读(6495) 评论(4)

Spark MLlib机器学习—封面

Spark MLlib机器学习,目前已经正在印刷中,预计4月初可以正式上市,请大家多多关注! 封面如下:...
阅读(1427) 评论(1)

Apache Arrow:一个跨平台的内存数据交换格式

1、Apache Arrow:一个跨平台的内存数据交换格式 Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。 用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工...
阅读(1249) 评论(0)

基于Spark自动扩展scikit-learn (spark-sklearn)

1、基于Spark自动扩展scikit-learn(spark-sklearn) 1.1 导论 Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法,比如在梯度下降算法中,单机做法是计算所有样本的梯度值,单机算法是以全体样本的计算单位;而分布式算法的逻辑是以每个样本为单位,在集群上分布式的计算每个样本的梯度值,然后再对每个样本的梯度进行聚合操作等。在Spark Mllib中...
阅读(4956) 评论(2)
58条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:286697次
    • 积分:3381
    • 等级:
    • 排名:第9936名
    • 原创:54篇
    • 转载:4篇
    • 译文:0篇
    • 评论:114条
    《Spark MLlib 机器学习》QQ群
    《Spark MLlib 机器学习》QQ群:487540403,欢迎大家加入!
    博客专栏
    文章分类
    最新评论