大数据之spark数据分区

最新推荐文章于 2024-01-18 02:03:45 发布

HW_870754395

最新推荐文章于 2024-01-18 02:03:45 发布

阅读量396

点赞数

分类专栏：大数据文章标签：大数据 spark分区

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HW_870754395/article/details/97376224

版权

大数据专栏收录该内容

21 篇文章 2 订阅

订阅专栏

大数据之spark数据分区

1. 为什么要分区
2. 举例说明：

1. 为什么要分区

spark可以通过分区来减少网络通信开销：
分区并非对于所有场景都是有好处的：

若给定RDD只被扫描一遍，那么完全没必要做分区，只有当数据多次在诸如链接这种基于键的操作
时，分区才会有帮助。

2. 举例说明：

假设我们有一份不变的大文件userData，以及每5分钟产生的小数据events，现要求：每5分钟产
出events数据 ,userData对events做一次join操作

默认情况：

join操作会求两个RDD中的所有键的哈希值
将哈希值相同的记录通过网络传到同一台机器上
然后在那台机器上对所有键相同的记录进行连接
存在问题：
每次调用时，都要对userData进行哈希值计算和跨节点数据混洗（shuffle），浪费资源和时间
解决方案：
对userData进行分区和持久化
由于对userData构造时指定了分区和持久化，调用join时，便不会重新对userData进行数据混洗了，只对events做shuffle, 将events中特定key对应的记录发送到userData的对应分区所在的机器上，这样便大大减少了需要做网络通信的数据，加快了程序运行时间。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据之spark数据分区

大数据之spark数据分区1. 为什么要分区2. 举例说明：1. 为什么要分区spark可以通过分区来减少网络通信开销：分区并非对于所有场景都是有好处的：若给定RDD只被扫描一遍，那么完全没必要做分区，只有当数据多次在诸如链接这种基于键的操作时，分区才会有帮助。2. 举例说明：假设我们有一份不变的大文件userData，以及每5分钟产生的小数据events，现要求：每5分钟产...
复制链接

扫一扫

专栏目录

HW_870754395 CSDN认证博客专家 CSDN认证企业博客

码龄7年

90: 原创

5万+: 周排名

87万+: 总排名

9万+: 访问

: 等级

1836: 积分

46: 粉丝

69: 获赞

16: 评论

311: 收藏

私信

关注

热门文章

分类专栏

python 1篇
数据结构 8篇
剑指offer 55篇
学习笔记 28篇
mysql 2篇
leetcode 1篇
大数据 21篇
数据库 5篇
数据仓库 10篇
JAVA基础 1篇
面试题 1篇

最新评论

解决'ERROR 1406 (22001): Data too long for column 'name' at row 1'
Jillian Chen: 我本来想说时间过去太久了怎么解决的早忘了，但是一看是‘name’和编码的问题，按照经验有三种可能性：1.API调用数据库insert的语句写错了，或者API调用的原中文文本数据中（就是要导入的那堆数据里）没有在中文上加单引号；2.数据库或者数据表的格式没有设置为utf8；3.数据表中‘name’字段占用的空间设置太短了，需要改长一点。第三种情况可能性特别小，你可以仔细检查一下，再想办法修改
解决'ERROR 1406 (22001): Data too long for column 'name' at row 1'
今天快滚去学习: 我也找不到这一句，你现在解决这个问题了吗？
操作型数据库 VS分析型数据库
等你说等我说: 好
导出javadoc就出现java.lang.IllegalArgumentException这个异常
爱Java的球迷: 没有设置这个也不行啊
《剑指offer》刷题——【树】面试题8：二叉树的下一个节点（java实现）
ICElike: 感觉可以直接将中序遍历输出到一个Map,然后直接花费O(1)时间，就可以找到。但就是树太大的话，耗费时间跟空间

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。