算子调优之MapPartitions提升Map类操作性能

spark中,最基本的原则,就是每个task处理一个RDD的partition。 1、MapPartitions操作的优点: 如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。 但是,使用MapPartitions操作之后,一...

2018-09-13 10:20:09

阅读数:40

评论数:0

聚类(幂迭代聚类, power iteration clustering, PIC)

https://blog.csdn.net/qq_34531825/article/details/52675182

2018-09-12 19:12:30

阅读数:86

评论数:0

社区发现算法之标签传播(LPA)

标签传播算法(LPA)的做法比较简单: 第一步: 为所有节点指定一个唯一的标签; 第二步: 逐轮刷新所有节点的标签,直到达到收敛要求为止。对于每一轮刷新,节点标签刷新的规则如下: 对于某一个节点,考察其所有邻居节点的标签,并进行统计,将出现个数最多的那个标签赋给当前节点。当个数最多...

2018-09-12 19:10:42

阅读数:181

评论数:0

[Spark基础]--repartition vs coalesce

https://blog.csdn.net/high2011/article/details/78842739

2018-09-11 15:25:05

阅读数:13

评论数:0

Spark GraphX aggregateMessage函数介绍

aggregateMessage函数有两个大操作,一个是sendMsg,一个是mergeMsg。aggregateMessages函数其对象是三元组。 sendMsg是将三元组的属性信息进行转发,mergeMsg是将sendMsg转发的内容进行聚合。 sendMsg函数以EdgeContex作为...

2018-09-11 10:56:48

阅读数:36

评论数:0

Spark Pregel参数说明

Pregel是个强大的基于图的迭代算法,也是Spark中的一个迭代应用aggregateMessage的典型案例,用它可以在图中方便的迭代计算,如最短路径、关键路径、n度关系等。然而对于之前对图计算接触不多的童鞋来说,这个api还算是一个比较重量组的接口,不太容易理解。 Spark中的Prege...

2018-09-11 10:52:08

阅读数:42

评论数:0

pregel 与 spark graphX 的 pregel api

https://blog.csdn.net/u013468917/article/details/51199808

2018-09-10 18:38:42

阅读数:56

评论数:0

SparkGraphX快速入门

1 图 图是由顶点和边组成的,并非代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如: 社交网络 互联网web页面 常用的应用有: 在地图应用中找到最短路径 基于与他人的相似度图,推荐产品、服务、人际关系或媒体 2 术语 2....

2018-09-10 17:53:09

阅读数:49

评论数:0

Spark2.0机器学习系列之11: 聚类(幂迭代聚类, power iteration clustering, PIC)

在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法:             (1)K-means             (2)Latent Dirichlet allocation (LDA)             (3)Bisecting k-means(二分...

2018-05-30 17:47:17

阅读数:100

评论数:0

SparkML之回归(三)保序回归

在写這篇博客的时候,翻阅了一些互联网上的资料,发现文献[1]写的比较系统。所以推荐大家读读文献[1].但是出现了一些错误,所以我在此简述一些。如果推理不过去了。可以看看我的简述。 ------------------------------------前言 背景: (...

2017-11-20 15:22:30

阅读数:298

评论数:0

【Spark2.0源码学习】-9.Job提交与Task的拆分

在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用户任务类(或者任务代码)进行分析   一、整体预览           基于上篇图做了扩展,增加任务执行...

2017-11-11 15:59:40

阅读数:173

评论数:0

Spark SQL利器:cacheTable/uncacheTable

Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。   假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下:   ...

2017-11-10 10:13:50

阅读数:148

评论数:0

Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; l驱动程序(...

2017-11-10 10:11:30

阅读数:100

评论数:0

spark性能优化:数据倾斜调优

调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象   1、绝大多数task执行得都非常快,但个别...

2017-10-26 11:50:04

阅读数:82

评论数:0

用 LDA 做主题模型:当 MLlib 邂逅 GraphX

主题模型可以从一系列文章中自动推测讨论的主题。这些主题可以被用作总结和整理文章,也可以在机器学习流程的后期阶段用于特征化和降维。 在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于GraphX上构建的第一个MLlib算法。在这篇博文中,...

2017-05-10 10:44:11

阅读数:179

评论数:0

Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战

1、MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重...

2017-04-15 23:05:52

阅读数:346

评论数:0

Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

1、机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 l“机器学习是对能通过经验自动改进的计算机算法的研究”。 l“机器学习是用数据或以往的经验,以此优化计...

2017-04-15 23:02:16

阅读数:300

评论数:0

Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍

1、Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP socket...

2017-04-15 22:54:32

阅读数:246

评论数:0

Spark入门实战系列--6.SparkSQL(下)--Spark实战应用

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1 运行环境说明 1.1 硬软件环境 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存虚拟软件:VMware® Workstation 9.0.0 build-81...

2017-04-15 19:04:21

阅读数:495

评论数:0

Spark入门实战系列--6.SparkSQL(中)--深入了解运行计划及调优

1 使用Hive-Console 了解运行计划 前面介绍了SparkSQL的运行过程,罗列了很多概念很抽象,比如Unresolved LogicPlan、LogicPlan、PhysicalPlan,下面介绍一个工具hive/console,来加深对SparkSQL的运行计划的理解。  【注】以...

2017-04-15 18:59:21

阅读数:288

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭