Table of Contents
D是观测值,h是假设,求P(h | D)
为可能的每个单词h,计算一下 P(h) * P(D | h)/ P(D)这个值,然后取最大的,得到的就是最靠谱的猜测。P(D)是固定的,我们在脑子里想的是P(hD)。根据一个人是男生且穿长裤的概率和是女生穿长裤的概率的大小,猜测穿长裤的是男生还是女生,与问题一个人穿长裤的概率无关
只考虑P(D | h)就是最大似然估计,即便一个猜测与数据非常符合,也并不代表这个猜测就是更好的猜测,因为这个猜测本身的可能性P(h)也许就非常低。-1 3 7 11 你说是等差数列更有可能呢?还是 -X^3 / 11 + 9/11*X^2 + 23/11 。一般地说肯定是越低阶的多项式越靠谱(当然前提是也不能忽视“似然”P(D | h) ,明摆着一个多项式分布您愣是去拿直线拟合也是不靠谱的,这就是为什么要把它们两者乘起来考虑。),原因之一就是低阶多项式更常见,先验概率( P(h) )较大。所谓奥卡姆剃刀精神就是说:如果两个理论具有相似的解释力度,那么优先选择那个更简单的(往往也正是更平凡的,更少繁复的,更常见的)。
观测数据总是会有各种各样的误差,比如观测误差,过拟合不好