Spark控制Insert hive表小文件

最新推荐文章于 2023-12-05 23:27:49 发布

沐沐牡

最新推荐文章于 2023-12-05 23:27:49 发布

阅读量906

点赞数

分类专栏： spark 文章标签： hive spark hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lucyxu107/article/details/127747019

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.小文件产生原因：
spark .sql.shuffle.partitions=200 ，spark sql默认shuffle分区是200个，如果数据量比较小时，写hdfs时会产生200个小文件。

2. 可尝试通过以下操作来解决小文件过多问题，在sql执行过程中，设置分区个数（repartition可以在rdd生效，配置是全局生效的）如下

--conf spark.sql.shuffle.partitions=10

3. sql中设置分区方式

INSERT OVERWRITE TABLE

tab_name partition(partition_date=***)

select name,age,address from tmp_table Distribute by rand();

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark控制Insert hive表小文件

sql 小文件 insert
复制链接

扫一扫

专栏目录

沐沐牡 CSDN认证博客专家 CSDN认证企业博客

码龄7年

156: 原创

6万+: 周排名

216万+: 总排名

34万+: 访问

: 等级

4800: 积分

23: 粉丝

94: 获赞

17: 评论

269: 收藏

私信

关注

热门文章

分类专栏

c++ 3篇
spark 2篇
环境安装 2篇
兴趣编程 47篇
java容器 7篇
java基础 23篇
数据结构 11篇
java虚拟机 14篇
java并发编程 21篇
设计模式 3篇
数据库 18篇
操作系统 8篇
计算机网络 12篇
Socket编程 8篇
git版本控制 18篇
python编程 39篇
go编程
rpc服务 1篇
SQLAlchemy 9篇
vim使用 17篇
其他 25篇
Redis 13篇
linux 36篇
Django 5篇
Docker 3篇
Nginx 1篇
计算广告 1篇
shell脚本 1篇
存储 3篇

最新评论

SQLAlchemy 的 scoped_session
Daletxt: [code=python] some_other_session.remove() [/code] 这段代码是错误的（AttributeError: 'Session' object has no attribute 'remove'），官方给出的例子（https://docs.sqlalchemy.org/en/14/orm/contextual.html）里是[code=python] ScopedSession.remove() [/code]
SQLAlchemy 的 scoped_session
Daletxt: 有深度，找到解决问题的方向了，之前项目自己写的框架，没有用Django也没用flask（flask-sqlalchemy）,直接用的SQLAlchemy框架，没有遇到问题，后来日志里总报连接失败的错误，是因为SQLAlchemy版本问题，升级到1.4.48解决了，现在又遇到了，要继续研究scope_session的使用了
python 的StringIO
士多碧莉: 很详细，点赞
SQLAlchemy 的 scoped_session
wudalongqiang: 大有帮助，感谢
python 的StringIO
yyj_best: 谢谢作者，收获很大

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。