teradata 预先探查数据分布

最新推荐文章于 2018-12-04 00:31:39 发布

_假象

最新推荐文章于 2018-12-04 00:31:39 发布

阅读量2.2k

点赞数

分类专栏： teradata 文章标签： teradata 数据库 mpp 数据倾斜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wali_wang/article/details/50463107

版权

teradata是一款MPP架构的数据库，数据装载到数据库的时候会被切分到不同的节点，计算数据的时候每个节点负责计算各自的数据并返回给MPL(Message Passing Layer)做最后的计算。

使用teradata以来总有一个困惑，数据装载到数据库后才发现表的倾斜度不在我们规定的阀值之内(尽管从技术角度讲选择一个重复值低的字段做PI比较合理 )，特别是大表，数据倾斜影响MPP的性能。因此我们需要为我们所选择的PI负责任，那是否可以预先探查一下我们数据的分布情况呢。

假设我们teradata总共有146个AMP，并且PI字段CNAME DISTINCT以后的值小于我们AMP的个数，我们可以使用下面简单的SQL基本确我们的数据分布：

SELECT CNAME, COUNT(CNAME)
  FROM TNAME
 GROUP BY 1
 ORDER BY 2;

但是假如CNAME DISTINCT以后的值远远大于我们AMP的个数，是否能探查我们数据的分布呢？

翻看了teradata的文档终于找到了有关hash function的片段

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
teradata 预先探查数据分布

teradata是一款MPP架构的数据库，数据装载到数据库的时候会被切分到不同的节点，计算数据的时候每个节点负责计算各自的数据并返回给MPL(Message Passing Layer)做最后的计算。使用teradata以来总有一个困惑，数据装载到数据库后才发现表的倾斜度不在我们规定的阀值之内(尽管从技术角度讲选择一个重复值低的字段做PI比较合理 )，特别是大表，数据倾斜影响MPP的性能。因此
复制链接

扫一扫

专栏目录

_假象 CSDN认证博客专家 CSDN认证企业博客

码龄8年

16: 原创

31万+: 周排名

138万+: 总排名

12万+: 访问

: 等级

1014: 积分

29: 粉丝

45: 获赞

18: 评论

193: 收藏

私信

关注

热门文章

分类专栏

teradata 9篇
excel技巧
kettle 1篇
正则 1篇
cognos 1篇
python

最新评论

python re的findall和finditer
IceBear19 回复 qq_43393000: 嗯，应该是的
teradata PI -- Join的影响
其未远: 请问一下，NPI是什么意思啊，具体的语法怎么用呢？感谢
python excel神器xlwings
yingfly: 这个库的新版本不支持老版本的语法了
python excel神器xlwings
carefree_fish: last_row_index = xw.Range(detail_sheet, "B4").table.last_cell.row 你好，请问下，我这段报错了 C:\Program Files\Anaconda3\lib\site-packages\xlwings\main.py in __init__(self, cell1, cell2, **options) 976 impl = sheets.active.range(cell1, cell2).impl 977 else: --> 978 raise ValueError("Invalid arguments") 979 980 self.impl = impl ValueError: Invalid arguments C:\Program Files\Anaconda3\lib\site-packages\xlwings\main.py in __init__(self, cell1, cell2, **options) 976 impl = sheets.active.range(cell1, cell2).impl 977 else: --> 978 raise ValueError("Invalid arguments") 979 980 self.impl = impl ValueError: Invalid arguments
teradata体系架构简介
Galaxy_hao: 请问teradata 磁盘上存储块单元大小有什么要求吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。