![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
糖小豆子
做一个快乐的程序员,啃一口酱猪蹄忘记所有烦恼。
展开
-
《Spark快速大数据分析》笔记Ch1、2
Spark快速大数据分析-Spark数据分析导论、Spark下载与入门。原创 2017-09-06 11:28:26 · 1111 阅读 · 2 评论 -
Spark集群安装部署
Hadoop2.8.1+Scala2.12.3+Spark2.2.0集群安装部署原创 2017-09-06 15:59:29 · 2656 阅读 · 0 评论 -
《Spark快速大数据分析》笔记Ch4 键值对操作
键值对 RDD 是 Spark 中许多操作所需要的常见数据类型。本章就来介绍如何操作键值对RDD。键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。 本章也会讨论用来让用户控制键值对 RDD 在各节点上分布情况的高级特性: 分区。有时,使用可控的分区方式把常被一起访问的数据放到同一个节点上, 可以大大减少应用的通信开销。这会原创 2017-09-15 11:19:39 · 561 阅读 · 0 评论 -
《Spark快速大数据分析》笔记Ch3 RDD编程
Spark快速大数据分析-RDD编程:RDD基础、创建RDD、RDD操作、向Spark传递函数、常见的转化操作和行动操作、持久化(缓存)、总结。原创 2017-09-08 13:44:17 · 649 阅读 · 0 评论 -
利用Spark MLlib实现协同过滤(ALS)算法实例(Python)
协作过滤协同过滤通常用于推荐系统。这些技术旨在填补用户项目关联矩阵的缺失条目。 spark.ml目前支持基于模型的协作过滤,其中用户和产品由一组可用于预测缺失条目的潜在因素来描述。 spark.ml使用交替最小二乘(ALS) 算法来学习这些潜在因素。实现中spark.ml有以下参数:numBlocks是为了并行化计算而将用户和项目划分到的块的数量(默认为10)。 rank是模型中潜在因素...原创 2018-04-07 16:24:59 · 5209 阅读 · 1 评论 -
利用Spark MLlib实现Kmeans算法实例(Python)
聚类 - spark.mllib聚类是一种无监督的学习问题,我们的目标是根据一些相似的概念将实体的子集相互分组。聚类通常用于探索性分析和/或作为分层 监督学习管线(其中针对每个群集训练不同的分类器或回归模型)的组成部分。该spark.mllib软件包支持以下模型: K-means Gaussian mixture Power iteration clustering (PIC) L...原创 2018-04-11 13:02:38 · 3687 阅读 · 3 评论