在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的。
a={条件一,条件二,条件三,条件四}#真实数据的条件
b={条件一,条件二,条件三}
c={条件一,条件二,条件三,条件四,条件五}#条件五不是已知数据满足的条件
data#已知数据
data1#真实数据
if a中的条件d全部满足:
d为data1中成员
if b中的条件d全部满足:
d可能为data1中成员
if c中的条件d全部满足and data1中数据不满足条件五:
d一定不是data1中成员
if c中的条件d全部满足and data1中数据部分满足条件五and 该预测数据是满足条件五的数据:
d一定是data1中数据
if c中条件的都满足and data1中数据部分满足条件五and该预测数据也不满足条件五:
d一定不是data1中的数据
当满足a,b,c的模型与data的误差在允许范围内时,满足a的模型对未知数据预测精度不存在为0的情况,满足c的模型对未知数据预测精度存在为0情况。
满足条件少的模型比满足条件多的模型简单。
在现实中数据满足的条件是未知的,为此在对训练集数据满足精度要求的前提下,选择满足条件最少的模型较好。