3. top frequency histogram 定义
Top frequency就是把表里很少出现的某些distinct的值直接在直方图里忽略掉,因为这些值在表里出现的次数太少(系统会对列中distinct value出现的次数进行排序,保留top n 的distinct值, 其中n为bucket数), 被忽略的distinct值在计算cardinality的时候按照没有直方图处理 。
且distinct value中的最小值和最大值必须在ENDPOINT_VALUE中,如果最大、最小值不在直方图数据中,则需将数据量最小的数值移除以腾出位置给最大最小值。 和频率直方图相似,endpoint_value值的个数也是对应endpoint_number减去前一个endpoint_number得到的。
如下所示,值的行数排在top 8的1,2,3,4,6,7,8,9, 但是由于最大值12没有排在其中,所以将排在最后的8 (8有2行,和值1,2,7几个行数一样)移除,将12放在最后。
select * from dba_tab_histograms where owner = 'APPS'
AND table_name = 'TEST_TMP3' AND COLUMN_NAME ='CODE';
OWNER TABLE_NAME COLUMN_NAME ENDPOINT_NUMBER ENDPOINT_VALUE ENDPOINT_ACTUAL_VALUE ENDPOINT_ACTUAL_VALUE_RAW
ENDPOINT_REPEAT_COUNT SCOPE
HW TEST_TMP3 CODE 1 1 1 C102 0 SHARED
HW TEST_TMP3 CODE 3 2 2 C103 0 SHARED
HW TEST_TMP3 CODE 103 3 3 C104 0 SHARED
HW TEST_TMP3 CODE 123 4 4 C105 0 SHARED
HW TEST_TMP3 CODE 177 6 6 C107 0 SHARED
HW TEST_TMP3 CODE 179 7 7 C108 0 SHARED
HW TEST_TMP3 CODE 184 9 9 C10A 0 SHARED
HW TEST_TMP3 CODE 185 12 12 C10D 0 SHARED
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/35489/viewspace-1128161/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/35489/viewspace-1128161/