【Spark】ETL数据到HBase中时优化

最新推荐文章于 2021-12-20 14:28:15 发布

孙文旭

最新推荐文章于 2021-12-20 14:28:15 发布

阅读量198

点赞数 1

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35495339/article/details/98663796

版权

Spark 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

创建表的时候

设置表的数据压缩
创建预分区
设置读取表中的数据不缓存
	cache block

spark程序的优化

存在一个变量eventTypeList是Driver里面，filter是在Executor里面task运行
如果RDD有中3个分区，分别在不同的executor中，那么eventTypeList需要存储3份
在实际的开发中，一天处理的数据量几十个GB，分区有可能很多，一个数据库对应一个分区，一个分区对应一个Task，如果有1000个分区，
如果eventTypeList1M的话，将消耗1GB
可以考虑一个executor存储一份，如果有10个executor存储10M就好了
Spark supports two types of shared variables

spark提供2种方式变量共享

broadcast variables：广播变量
which can be used to cache a value in memory on all nodes,
使用广播变量将集合类别广播出去：将数据发送到每一个executor里面
accumulators：累加器
which are variables that are only “added” to, such as counters and sums.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Spark】ETL数据到HBase中时优化

创建表的时候设置表的数据压缩创建预分区设置读取表中的数据不缓存 cache blockspark程序的优化存在一个变量eventTypeList是Driver里面，filter是在Executor里面task运行如果RDD有中3个分区，分别在不同的executor中，那么eventTypeList需要存储3份在实际的开发中，一天处理的数据量几十个GB，分区有可能很多，一个数据库对...
复制链接

扫一扫

专栏目录

孙文旭 CSDN认证博客专家 CSDN认证企业博客

码龄8年

96: 原创

5万+: 周排名

180万+: 总排名

30万+: 访问

: 等级

3309: 积分

86: 粉丝

310: 获赞

45: 评论

906: 收藏

私信

关注

热门文章

分类专栏

java基础 12篇
MYSQL 11篇
前端 5篇
spring 19篇
springMVC 7篇
ajax 1篇
git 1篇
Linux 16篇
Hadoop 17篇
Hive 23篇
Sqoop 3篇
Flume 5篇
azkaban
redis 5篇
nosql 1篇
分布式 1篇
缓存
HBase 5篇
Spark 10篇
kafka 2篇

最新评论

(干货)【intellij idea】Project Structure 讲解
三尺微命一介书生: 很有帮助，十分感谢
Github 生成SSH秘钥（详细教程）
qq_41968452: 感谢答主教学。可以同时参考Github官方文档辅助理解： https://docs.github.com/en/authentication/connecting-to-github-with-ssh/generating-a-new-ssh-key-and-adding-it-to-the-ssh-agent
Github 生成SSH秘钥（详细教程）
Ravanla: 在命令窗口上输入 ssh -T ssh -T git@github.com 按回车键博主，这里你重复ssh -T了，让我遇到了这个问题“ssh: Could not resolve hostname ssh: Name or service not known”
Github 生成SSH秘钥（详细教程）
大欺诈师: kex_exchange_identification: Connection closed by remote host 这样是正常吗
Github 生成SSH秘钥（详细教程）
*A_@詠桁*: 妙哉

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。