最小熵原理：“物以类聚”之从图书馆到词向量

最新推荐文章于 2021-11-25 01:20:17 发布

PaperWeekly

最新推荐文章于 2021-11-25 01:20:17 发布

阅读量798

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/85110987

版权

本文通过图书馆的图书分类和布局，探讨了最小熵原理如何指导信息组织，以降低查找成本。作者指出，图书分类的目的是使找书过程更加省力，尤其在人们通常借阅相关书籍时。通过数学模型，作者展示了如何从成本最小化的角度优化图书排列。这一思想与Word2Vec词向量模型和t-SNE降维算法有共通之处，强调了“物以类聚”的重要性。文章最后讨论了这些原理在自然语言处理中的应用和价值。

摘要由CSDN通过智能技术生成

640

作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP，神经网络

个人主页丨kexue.fm

从第一篇看下来到这里，我们知道所谓“最小熵原理”就是致力于降低学习成本，试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢？答案是“套路”，所以本系列又称为“套路宝典”。

“最小熵系列”前文回顾：

从无监督构建词库看最小熵原理，套路是如何炼成的

再谈最小熵原理：“飞象过河”之句模版和语言结构

本篇我们介绍图书馆里边的套路。

先抛出一个问题：词向量出现在什么时候？是 2013 年 Mikolov 的 Word2Vec？还是 2003 年 Bengio 大神的神经语言模型？都不是，其实词向量可以追溯到千年以前，在那古老的图书馆中。

640

▲ 图书馆一角（图片来源于百度搜索）

走进图书馆

图书馆里有词向量？还是千年以前？在哪本书？我去借来看看。

放书的套路

其实不是哪本书，而是放书的套路。很明显，图书馆中书的摆放是有“套路”的：它们不是随机摆放的，而是分门别类地放置的，比如数学类放一个区，文学类放一个区，计算机类也放一个区；同一个类也有很多子类，比如数学类中，数学分析放一个子区，代数放一个子区，几何放一个子区，等等。读者是否思考过，为什么要这么分类放置？分类放置有什么好处？跟最小熵又有什么关系？

有的读者可能觉得很简单：不就是为了便于查找吗？这个答案其实不大准确。如果只是为了方便找书，那很简单，只要在数据库上记录好每一本书的坐标，然后在地面上也注明当前坐标，这样需要借哪本书，在数据库一查坐标，然后就可以去找到那本书了，整个过程不需要用到“图书分类”这一点。所以，如果单纯考虑找书的难易程度，是无法很好的解释这个现象。

省力地借书

其实原因的核心在于：我们通常不只是借一本书。

前面说了，只要建好索引，在图书馆里找一本书是不难的，问题是：如果找两本呢？一般情况下，每个人的兴趣和研究是比较集中的，因此，如果我要到图书馆借两本书，那么可以合理地假设你要借的这两本书是相近的，比如借了一本《神经网络》，那么再借一本《深度学习》的概率是挺大的，但再借一本《红楼梦》的概率就很小了。

借助于数据库，我可以很快找到《神经网络》，那么《深度学习》呢？如果这本书在附近，那么我只需要再走几步就可以找到它了，如果图书是随机打乱放置的，我可能要从东南角走到西北角，才找到我想要的另一本书《深度学习》，再多借几本，我不是要在图书馆里跑几圈我才能借齐我要的书？

这样一来，图书分类的作用就很明显了。图书分类就是把相近的书放在一起，而每个人同一次要借的书也会相近的，所以图书分类会让大多数人的找书、借书过程更加省力。这又是一个“偷懒攻略”。

也就是说，将我们要处理的东西分类放好，相近的放在一起，这也是满足最小熵原理的。生活中我们会将常用的东西分类放在触手可及的地方，也是基于同样的原理。