teradata可以用下面语句收集统计信息:
collect statistice on tablename column(columnname);
收集统计信息后,teradata PE就会按照收集的统计信息确定执行计划,没有统计信息,PE就不知道什么样的执行计划才是合适的,这样就可能做出很让人难以接受的执行计划!
前几天执行一个SQL,执行了好几个小时,报错,spool空间不足,建数据库时分配了10T的spool空间,竟然报不足,难以接受。
重新执行SQL,打开manager查看执行计划,竟然在重分布一张5亿条数据的表,重分布的原因竟然是因为该表与一个只有40条记录的小表关联,由于是按照关联字段重新分布,关联字段的取值只有几十种,分布非常的不均匀,导致一大部分数据都分布到同一个amp上,而其他有几百个amp都是空的,那个分布数亿条记录的amp自然报spool不足;这由于没有统计信息,PE不知道表的大小,就做出了大表重分布的错误决定;
对两个表的关联字段用上面语句收集了统计信息后,PE选择了正确的执行计划,把小表拷贝到各个amp,再在每个amp上与大表关联,这也仅仅拷贝了16000条记录,0.1s就结束,关联也只花费了3分钟多。问题解决了。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/9999499/viewspace-615361/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/9999499/viewspace-615361/