说明:直接从最低层级取样本计算统计量,例如计算各层级的算术平均数时,各样本所占权重是相等的,均为1/n;若逐层级求均值的均值,则会改变各样本的权重,使样本量越少的类别中,各样本所占权重越大,样本量越大的类别中,各样本所占权重越小;但这可能不符合实际情况,至少是没有逻辑的,或者说为什么小类别中样本要占大权重,大类别中样本要占小权重,如果是,应占怎样的权重?
具体来说,当只有三个层级时,若中间层级只有两类,则是倍数关系,例如A类有8个样本,B类有2个样本,则A类中各样本权重为1/16,B类中各样本权重为1/4,B类样本权重为A类的4倍,因为B类中样本数为A类中样本数的1/4。若中间层级大于两类,则各类别中样本权重为如下推导结果。关于前述命题“若逐层级求均值的均值,则会改变各样本的权重,使样本量越少的类别中,各样本所占权重越大,样本量越大的类别中,各样本所占权重越小”的证明如下,当层级数大于3时,由数学归纳法也可推知该命题的正确性。