在系统树的构建中,常用的方法还有似然法和贝叶斯法,在讲这之前,我们先回顾一下统计学中的估计的相关知识。
我们知道统计学可以分为描述统计和推断统计两大类:
描述统计就是对采集的全部数据进行概括,可以使用平均值、方差、中位数、四分位数等特征量来描述分布情况。
而推断统计则是根据所采集的部分数据,对全部数据的情况进行推测。
从抛硬币中区分经验分布与真实分布
我们抛10次硬币,得到“反正反正正反反反反反”的观测结果,从观测值中得到“正面出现的比例为3/10,反面出现的比例为7/10”的结论,这称为经验分布,是我们对我们所在的这一世界的观测。
而真实分布中的正面向上或反面向上的概率是多少,我们是不可知的,只有能够看到所有平行世界整体的那位知道。
但是当你的实验次数够多的话,我们就可以从经验分布中去估计真实分布,这也是我们为什么需要估计的原因。
假设我们的观测值与真实分布相关的话,我们应该依据什么来估计真实分布呢?分为两类考虑:
1:参数估计:对真实分布做假定,给出了分布函数,但是分布函数的某些参数是未知的,需要利用已知的样本集对总体分布函数的参数进行估计。
常用的两种估计方法是最大似然估计和贝叶斯估计。
2:非参数估计:已知样本所属的类别,但是对真实分布不做假定,也就不知道