最小熵原理:“物以类聚”之从图书馆到词向量

640


作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP,神经网络

个人主页丨kexue.fm


从第一篇看下来到这里,我们知道所谓“最小熵原理”就是致力于降低学习成本,试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢?答案是“套路”,所以本系列又称为“套路宝典”。


“最小熵系列”前文回顾: 


从无监督构建词库看最小熵原理,套路是如何炼成的

再谈最小熵原理:“飞象过河”之句模版和语言结构


本篇我们介绍图书馆里边的套路。


先抛出一个问题:词向量出现在什么时候?是 2013 年 Mikolov 的 Word2Vec?还是 2003 年 Bengio 大神的神经语言模型?都不是,其实词向量可以追溯到千年以前,在那古老的图书馆中。


640

 图书馆一角(图片来源于百度搜索)


走进图书馆


图书馆里有词向量?还是千年以前?在哪本书?我去借来看看。 


放书的套路


其实不是哪本书,而是放书的套路。 很明显,图书馆中书的摆放是有“套路”的:它们不是随机摆放的,而是分门别类地放置的,比如数学类放一个区,文学类放一个区,计算机类也放一个区;同一个类也有很多子类,比如数学类中,数学分析放一个子区,代数放一个子区,几何放一个子区,等等。读者是否思考过,为什么要这么分类放置?分类放置有什么好处?跟最小熵又有什么关系? 


有的读者可能觉得很简单:不就是为了便于查找吗?这个答案其实不大准确。如果只是为了方便找书,那很简单,只要在数据库上记录好每一本书的坐标,然后在地面上也注明当前坐标,这样需要借哪本书,在数据库一查坐标,然后就可以去找到那本书了,整个过程不需要用到“图书分类”这一点。所以,如果单纯考虑找书的难易程度,是无法很好的解释这个现象。


省力地借书


其实原因的核心在于:我们通常不只是借一本书。 


前面说了,只要建好索引,在图书馆里找一本书是不难的,问题是:如果找两本呢?一般情况下,每个人的兴趣和研究是比较集中的,因此,如果我要到图书馆借两本书,那么可以合理地假设你要借的这两本书是相近的,比如借了一本《神经网络》,那么再借一本《深度学习》的概率是挺大的,但再借一本《红楼梦》的概率就很小了。


借助于数据库,我可以很快找到《神经网络》,那么《深度学习》呢?如果这本书在附近,那么我只需要再走几步就可以找到它了,如果图书是随机打乱放置的,我可能要从东南角走到西北角,才找到我想要的另一本书《深度学习》,再多借几本,我不是要在图书馆里跑几圈我才能借齐我要的书? 


这样一来,图书分类的作用就很明显了。图书分类就是把相近的书放在一起,而每个人同一次要借的书也会相近的,所以图书分类会让大多数人的找书、借书过程更加省力。这又是一个“偷懒攻略”。


也就是说,将我们要处理的东西分类放好,相近的放在一起,这也是满足最小熵原理的。生活中我们会将常用的东西分类放在触手可及的地方,也是基于同样的原理。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值