MaxCompute表设计最佳实践

最新推荐文章于 2022-12-23 11:35:20 发布

胜利的曙光

最新推荐文章于 2022-12-23 11:35:20 发布

阅读量258

点赞数

分类专栏：阿里云数据仓库文章标签： hive 阿里云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenglishuguang/article/details/123628082

版权

MaxCompute表设计最佳实践。

摘要由CSDN通过智能技术生成

MaxCompute表设计最佳实践

产生大量小文件的操作

小文件会影响存储和计算的性能。表设计时应该避免产生大量小文件的操作。产生大量小文件的操作如下：

使用MaxCompute Tunnel SDK频繁上传数据(每次Commit会产生一个文件)。
使用MaxCompute Tunnel SDK上传数据时，创建Session缺不上传数据，直接Commit。
使用MaxCompute执行Tunnel上传时，将本地大文件切分过小。
通过DataHub执行数据归档，开启的Shard数过多。
通过DataWorks等数据开发工具增量频繁插入MaxCompute表。
使用DTS同步数据到MaxCompute时，增量表每次插入的数据条数较少。
源数据采集客户端太多，每次提交都会在同分区产生一个独立文件。
SLS触发FunctionCompute持续高频地向MaxCompute传入文件。

根据数据划分项目空间

如果多个应用需要共享数据，推荐使用同一个项目空间。

如果多个应用需要的数据是无关的，推荐使用不同的项目空间。

维度表的设计

维度表一般指描述属性的表。
维度表一般不需要设置分区。
维度表单表不推荐超过1000万。
维度表数据不应该被大量更新。
可以使用MAP JOIN语句优化维度表和其他表的JOIN操作。

拉链表的设计

需求：

数据量较大

最低0.47元/天解锁文章

胜利的曙光

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MaxCompute表设计最佳实践

MaxCompute表设计最佳实践。
复制链接

扫一扫

专栏目录

胜利的曙光 CSDN认证博客专家 CSDN认证企业博客

码龄11年

108: 原创

6万+: 周排名

115万+: 总排名

19万+: 访问

: 等级

1206: 积分

127: 粉丝

81: 获赞

25: 评论

402: 收藏

私信

关注

热门文章

分类专栏

最新评论

DataWorks快速入门
m0_48365410: 能分享下源数据吗？
Flink批处理入门
gggidt: 博主好，如果批量处理历史数据（mysql表里数据），如果数据量大，那内存这块儿岂不是无法满足？
Mac安装brew踩坑记录
sustyle: 同问！占了4g
MaxCompute表操作
weixin_44414232: 阿里云的官方文档，也不注明出处
DataWorks配置调度参数
迟到不早退的边牧: 请问一下我要配置小时调度，分区要细化到当前的实例执行的小时单位，怎么设置。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。