奥卡姆剃刀

        奥卡姆剃刀是一个哲学原理,是由经院哲学家奥卡姆提出的。这个原理十分简单:“如无必要,勿增实体”。这不是科学原理,因为这个说法是无法证明的。和数学一样,在一次又一次对自身的验证中,你只需相信它。这个原理被现代科学广泛的使用,在这样一个背景下,更详细的说法是:“给定一观察数据和若干种描述观察数据的理论,优先选择最简单的理论”。


        我举个简单的例子:给定一个观察数据,一个0,1组成的串:0101010x,其中x是一变量,代表0或者1。在没有任何其他数据的情况下,给出x的取值。直觉上,x应该为1,因为这样的话符合了某种优美性,即01重复4次。但是这还不足以构成一个正当的理由。现在我来给出一个理由。首先,可以提出2种理论,用正则表达式来表示的话分别是:
    1,x为1的情况,(01)* ;
    2,x为0的情况,0(10)*0 或者 (01)*0+ 。
那么,x取值的问题也就转化为了理论选择的问题。根据奥卡姆剃刀原理,应该选择理论1。但是为什么呢?为什么1就比2的两种理论简单呢?仅仅是看起来吗?我们可以试着使用概率来解答这个疑问。假想有一个分布在所有可能的正则表达式上的概率空间,分别赋予这些正则表达式一定的概率。那么显然理论2的两种假设的概率要比理论1的假设的概率小(假设(01)*的概率为a, 0的概率为b, 0+的概率为c,P(0(10)*0)=a*b*b < P((01)*)=a; P((01)*0+)=a*c < P((01)*)=a),这样来看的话,我们根据奥卡姆剃刀原理的选择就是合理的。也许你会质疑我们所假设的概率分布的正当性,但是即便这个分布不是理想的,也可以是经验累积的,而且它也是合理的(在所有用到正则表达式的地方,没有理由怀疑(01)*出现的次数比(01)*复杂的多的表达式更少)。


        接下来我想说一说观察数据。哥白尼的日心说是不符合当时人们的经验的,太阳每天从东边升起再从西边落下,如果我们只有这个观察数据的话,日心说简直就是荒谬至极了。即便根据奥卡姆剃刀,地心说也是合理的,因为比较起日心说,它更简单。如果我们有更多的观察数据,比如恒星的位置,行星的转动,那么地心说就很麻烦了,要用地心说解释这些现象需要一个很复杂的体系,这就是托勒密体系。托勒密体系使用周转圆来解释恒星的观察数据。在哥白尼时代,托勒密体系需要77个圆来描述太阳,月亮以及当时所知的5颗行星的运动。如果使用哥白尼的日心说,则只需要34个圆。如果加上开普勒的3个定律,可以得到更为简化的理论,不过这就是题外话了。我想说的是,一个正确的理论很大程度上有赖于这个理论所描述的数据,数据越多,越精确,理论的形成就越容易趋向於正确。


        但是现在IR领域的研究就缺乏这样的数据,虽然有TREC这样的数据集,但是这个数据集更多的是一个“心理期望”,对于每一个“个人”而言,其作用几乎为零。基于众多理论的众多的论文都使用TREC或等价的数据集,做着启发式的修改来提高它们在数据集上的成绩。很难说这是真正的提高还是更多的是在拟合数据集本身,即便是考虑了人的心理建构查询词过程的语言模型也仅仅是在理论上做出了创新,因为他们仍然使用TREC,语言被看成了修剪的整整齐齐的草坪,被无情的TREC割草机修剪的符合它的期望。 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值