频率派
频率学派认为问题最优解的参数是固定的。他们根据采出的训练数据样本,学习一组最符合它的样本。因此只要训练数据无穷大,就可以学习出精准的最优解参数。
频率派的观念也是当下最流行的观点。其最出名的运用:最大化似然估计,在神经网络中的运用就是最小化交叉熵损失。目的是为了使得训练出的模型参数在训练集上预测概率最大化,同时去逼近数据真实分布的最优解。
贝叶斯派
贝叶斯学派则认为问题最优解是不确定的,他需要通过概率分布来表示。以下是一个例子:
抛硬币问题,在实验前我们通常认定正反面的概率是0.5:0,5。但是可能在十次实验中,正面出现了7次,反面出现3次。此时频率不等于概率。贝叶斯派会采用观测到的0.7:0.3的实验分布去优化自己的模型。
需要注意的是:贝叶斯派训练出的模型往往不具有确定的参数,而是一个分布。通过不同参数的分布差异,我们可以总结出一些规律。如:方差小的参数确定性比方差大的参数高。
贝叶斯模型对于熟知的内容置信度高,对于不确定的内容置信度模糊。在评估贝叶斯模型时,我们常常通过分布信息固定参数进行评估(取分布均值/在分布中采样)。评价指标常有两种:在简单数据上的预测准确率和在噪声数据上的低置信度。