SPARK图计算缓存踩坑记录整理

最新推荐文章于 2024-11-26 11:58:55 发布

sxb668

最新推荐文章于 2024-11-26 11:58:55 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/sxb668/article/details/73800613

版权

简单写写：

1、spark的cache只能将数据缓存在内存中，当缓存数据过大时，会只缓存部分数据，job UI的fraction cached显示该RDD缓存的百分比。之后复用该RDD时，没缓存的数据还是会重复之前的操作从之前的RDD中计算获得。

2、persist可以选择存储级别，在缓存级别为MEMORY_AND_DISK和DISK_ONLY时，可以缓存下全量数据。

3、用fromEdgeTuples构建图的时候可以指定缓存级别，如果不指定则使用MEMORY_ONLY。

4、在图计算的时候，如果这个图过大，则不会一次完成全部计算。而是将数据分批，每次计算一批并和之前的结果进行归并。如果这个时候缓存级别又是MEMORY_ONLY，且RDD中的数据没有全部缓存下来，那么恭喜，会进行之前的操作去补全数据。。。

5、join操作需要读取全量的数据，如果其中一个比较大的RDD是缓存在disk中的，那么在这一步读出来的时候，往往会发生内存不足的问题导致任务失败。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sxb668

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【一研为定】西电考研复试问题准备

风口IT猪的成长录

04-26

1949

各位老师，我的自我介绍完毕！遇到老师提问到不会的问题，不要直接说我不会！可以说∶对不起老师，这个问题我现在还不太懂，复试结束后我会去认真查阅相关文献，把这个问题解决掉。如果遇到没有听清楚的问题,可以说∶对不起老师，这个问题我没有听清楚，可以请您再说一遍吗。回答完问题加上神来之笔不怯场、有自己的思路、对老师的提问不逃避、有抗压力、不害怕追问，就算答不对但要有思路，老师不在乎标准答案是否正确“老师，之前这方面我关注的比较少。

Spark-图计算GraphX

02-24

1.1基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种数据结构。这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模，图可以用来表示自然发生的连接数据，如：社交网络、互联网web页面常用的应用有：在地图应用中找到最短路径、基于与他人的相似度图，推荐产品、服务、人际关系或媒体1.2.1顶点和边一般关系图中，事物为顶点，关系为边1.2.2有向图和无向图在有向图中，一条边的两个顶点一般扮演者不同的角色，比如父子关系、页面A连接向页面B；在一个无向图中，边没有方向，即关系都是对等的，比如qq中的好友。GraphX中有一个重要概念，所有的边都有一个方向，那么图就是

参与评论您还未登录，请先登录后发表或查看评论

Spark图计算

weixin_43315211的博客

12-09

326

spark graphx

Spark图计算（一）

wangli0519的博客

06-19

1950

GraphX是Spark新的组成部分，主要用于图和图的并行计算。在高层，GraphX扩展了Spark RDD，引入新的图抽象：一个属性依附于点和边的有向多图。为支持图计算，GraphX提供一系列基本运算（例如子图、结合点和聚合消息）并优化了Pregel API的变体。此外，GraphX包含了一组图算法和构建器以简化图分析任务。首先需要在项目中载入Spark和GraphX： import or

spark 图计算GraphX

点点滴滴的博客

11-20

727

图计算Graphx原理 Graphx原理 GraphX 不是沿着边沿分割图形，而是沿着顶点分割图形，这可以减少通信和存储开销，在逻辑上，这对应于将边缘分配给机器并允许顶点跨越多台机器。在这里插入图片描述 ...

Spark图计算（二）

wangli0519的博客

06-20

760

图操作如同RDDs有如同map，filter和reduceByKey这些基本操作，属性图也有一些基本操作可以接受用户自定义函数转化属性和结构从而生成新图。优化应用的核心操作定义在Graph中，简便操作是核心的集合并定义在GraphOps中。由于Scala的隐式性GraphOps中的操作可自动的在Graph中获得。例如我们可以计算每个点（定义在GraphOps）的入度如下： val graph

spark向kafka写入数据

qq_56870570的博客

06-15

2338

spark向kafka写入数据前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka在舆情项目中的应用，最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结。（

Vue + ElementPlus + SpringBoot + Minio + AmazonS3 在Web端浏览器实现多线程分片上传解决方案，以及踩坑过程，未完善

最新发布

qq_38050728的博客

11-26

586

现在网上大部分的分片上传存在的问题，基本都是复制粘贴的，没差，要不就是搞些收费的，我也懒得去花钱看，毕竟这个技术又不是那种独特唯一的，而且大部分没办法进行前后端联合的分片上传，要不就先把文件上出纳到服务端，然后分片上传进文件服务器，我参考整理了以下的文档链接，这个是可以进行分片上传的，且代码完整Minio分片上传、断点续传、分片下载、秒传、暂停（断点）下载（Java版-附源码地址）你们参考这里也是可以的，这个方案也是可行的，接下来给出的是我的处理方案。

java架构师进阶之路

henhenha的博客

03-30

5196

包含了计算机基础、算法和数据结构、常用工具、java核心知识、性能优化、基础框架、数据库、消息队列、缓存中间件、搜索引擎、大数据、RPC、网关、容器、面试等知识

大数据面经

JasonChen3318的博客

09-02

1359

Linux： 3、平时都用过哪些Linux命令？直接在屏幕上打出来 Linux常用命令大全（非常全！！！） 4、Linux查看内存、CPU占有量命令？(当时没答上来！) 查看Linux磁盘及内存占用情况 top 命令 7.linux了解吗？epoll？(我说只懂基本命令) I/O多路复用之epoll ...

Spark_GraphX大规模图计算和图挖掘

12-05

Spark_GraphX大规模图计算和图挖掘

spark图计算应用解析

01-17

此文档共2.2万字，详细介绍了spark图计算的存储模式，图的构建，原理分析，以及计算模式，加上常用的API，PageRank排名算法等，章图算法介绍，还有实现代码练习

spark图的算法和计算

互联网知识分享

08-17

531

邻接表表示法：邻接表是一种常用的图表示方法，它以顶点为索引，以相邻的顶点列表作为值，表示顶点之间的连接关系。在每个超步中，每个顶点根据接收到的消息进行计算，并向相邻的顶点发送消息。图计算的算法和计算章节，包括图的表示方式、图计算模型、图算法和图计算的实现。算法，每个顶点根据其相邻顶点的权重计算自己的权重，并将计算结果传递给相邻的顶点。顶点和边的表示：图由一组顶点和一组边组成，可以使用顶点和边的数据结构来表示。图计算的算法和计算章节，包括图的表示方式、图计算模型、图算法和图计算的实现。

Spark图计算实例

鸿爸爸

11-12

1806

图计算实例 package cn.graphx import org.apache.spark.graphx.{Edge, Graph} import org.apache.spark.{SparkConf, SparkContext} /** * 图计算 * 构建点，边 */ object HelloGraphx { def main(args: Array[String]...

SparkGraphX图计算（一）

刘金超DT的博客

09-04

5601

SparkGraphX图计算（一）一、什么是图二、什么是SparkGraphX三、常见的图算法1、PageRank算法2、最短路径算法3、社群发现4、推荐算法ALS和SVD++四、GraphX数据抽象RDPG五、图基本结构1、GraphX的底层设计2、图数据存储方式六、GraphX简单案例-社交网络关系查询一、什么是图什么是图？图计算都在计算什么？我们可以从社交网络、人物关系挖掘、节点之间依赖...

Spark 图计算实战

李孟的博客

01-09

1569

文章目录一.GraphX 介绍二.GraphX 实现分析2.1 图的切分方式2.2 数据处理2.3 BSP模型2.4 设计核心三.GraphX 实例3.1 创建3.2 转换操作3.2.1 基本信息3.2.2mapVertices3.2.3 mapEdges3.2.4 mapTriplets3.3 结构操作3.3.1 reverse3.3.2 subgraph（重点）3.3.3 mask3.3.4 groupEdges3.4 聚合操作3.4.1 collectNeighbors3.4.2 collectNei

Spark入门实战系列--9.Spark图计算GraphX介绍及实例

yyy

09-16

1844

1、GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。众所周知·，社交网络中人与人之间有很多关系链，例如Twitter、Facebook、微博和微信等，这些都是大数据产生的地方都需要图计算，现在的图处理基本都是分布式的图处理，而并非单机处理。Sp

Spark GraphX图计算库

AI天才研究院

01-18

1170

1.背景介绍 Spark GraphX是一个基于Spark的图计算库，它为大规模图计算提供了高性能、高效的解决方案。图计算是一种处理大规模、复杂网络数据的方法，它广泛应用于社交网络、信息传播、推荐系统等领域。 Spark GraphX的核心设计思想是将图计算任务拆分为多个小任务，并将这些小任务分布式执行在Spark集群上。这样可以充分利用Spark的分布式计算能力，提高图计算的性能和效率。 ...

Spark图计算详解：打破大数据排序记录与技术趋势

《图计算分析指南》是一份全面的资源，专为理解知识图谱和利用Spark进行图计算提供深入指导。本指南以Apache Spark为核心，Spark是一个功能强大的分布式计算框架，它在大数据处理领域引起了广泛的关注和应用。 ...